RAG Evaluation

  1. test set이 중요하다.

  2. Precision & Recall

  3. Document Classification


RAG evaluation은 이렇게 3가지 포인트를 집을 수 있겠다.

우선, Test set이 가장 중요하다. query에 따라 잡혀야할 chunk가 무엇인지 사전에 정의가 필요하다. 도메인이 Finance라든가 Law라든가 전문 영역이라면, 도메인 전문가의 도움이 필요하다. 일반인이 보기에 적합하다고 생각하는 것보다, 도메인 전문가가 보기에 반드시 나와야하는 것을 기준으로 정답지를 생성한다. Test Set이 RAG 퀄리티에 가장 큰 영향을 준다.

Data 저장 방법, Embedding, Query Transformation 등을 변형하며, Test를 돌리고 가장 효율적인 조합을 찾는다. 이때 효율적인 정답 set을 결정하는 지표는 Precision&Recall을 활용할 수 있다.

  • Precision: 탐색해온 Chunk 중, Test set에서 정답이라고 한 Chunk의 개수.

  • Recall: Test set에서 정답이라고 한 Chunk의 개수 중, 탐색해온 Chunk 개수


한 발짝 더 나아가보자. Document Classification(DC) 단계가 있다면, Retrieve와 DC를 나눠서 평가할 수 있다. 목적을 달리해야한다. Retrieve에서는 최대한 정답 Document를 찾는 것에 집중하고, DC에서는 정답이 아닌 것을 걸러내는 것에 목적을 둔다.


이렇게 분리해두고 봐도 쉬운 작업은 아니지만, 나름 길은 있다.


다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 6월 2일 오전 8:52

댓글 0