개발자

RAG시 문서와 관련없는 내용

2024년 03월 20일•조회 99

안녕하세요 질문이 있습니다! RAG챗봇 개발시 문서와 관련없는 질문또는 문서에 없는 내용을 질문했을때 임계치를 설정했어도 검색이 되서 context에 넣는 경우가 있는데 이런경우 어떤식으로 해결할 수 있을까요..? 참고자료가 있나면 공유해주시면 감사하겠습니다ㅠㅠ

llm

rag

nlp

chatgpt

이 질문이 도움이 되었나요?

'추천해요' 버튼을 누르면 좋은 질문이 더 많은 사람에게 노출될 수 있어요. '보충이 필요해요' 버튼을 누르면 질문자에게 질문 내용 보충을 요청하는 알림이 가요.

김영동 엔키아 데이터사이언티스트 님의 질문

답변 0

첫 답변을 기다리고 있어요.

지금 가입하면 모든 질문의 답변을 볼 수 있어요!

현직자들의 명쾌한 답변을 얻을 수 있어요.

이미 회원이신가요?

AI 답변

커리어리 AI 봇

GPT가 달아주는 답변입니다.

2024년 03월 20일

자연어 처리 분야에서 완벽한 솔루션은 어렵지만, 관련 없는 질문이나 문서에 없는 내용을 질문했을 때 적절하게 대응하는 방법에 대해 몇 가지 제안이 있습니다. 1. **데이터 품질 가공**: 이 상황의 일부를 해결하기 위해 데이터 세트를 정제하고 최적화할 수 있습니다. 문서 세트가 충분히 포괄적이고, 질문이 그 문서에 기반하여 만들어졌다면 이러한 형태의 실수가 줄어들 것입니다. 2. **이상치 탐지 알고리즘 활용**: 이 방식은 입력 데이터가 학습 데이터와 비교하여 얼마나 일반적인지(혹은 비정상인지)를 판단합니다. 임계값보다 높은 유사성 점수; 예를 들어 0.7, 0.8 등을 설정하고 이에 부합하지 않으면 응답을 제공하지 않도록 할 수 있습니다. 3. **직접 회피 메시지 작성**: 이 경우, 챗봇은 해당 질문에 대한 정보를 찾을 수 없음을 사용자에게 알리는 메시지를 반환합니다. 4. **잘못된 정보 탐지 및 보완 모델 사용**: 잘못된 정보를 포함하고 있는지 탐지하는 모델을 추가적으로 구성하거나, 기존의 RAG 모델과 병렬적으로 틀린 정보를 보완할 수 있는 모델을 따로 학습시키는 방법이 있습니다. 이런 이슈들은 NLP 연구 분야에서 여전히 진행중인 주제들이며, Hugging Face와 같은 공개 라이브러리를 통해 다양한 솔루션들을 실험해볼 수 있습니다. 특히, 'knowledge distillation'과 같은 추세가 새로운 방향성을 제시하고 있습니다.

목록으로