[RAG] RAG 평가 및 개선

Ch2. LangSmith API를 활용한 프롬프트 최적화

데이터셋을 구축하기 위해선 크게 3가지 과정에 대한 이해 필요
1. Retrieval이 Question에 Relevant 한지 평가
2. Answer이 Question에 Relevant 한지 평가
3. Answer가 검색된 문서 안에서 답변하였는지 (할루시네이션)
Langsmith의 Dataset에 생성
데이터셋 예제는 추가 가능

가장 기본적이며 질문과 답변을 평가
ask_question이라는 함수를 만들어 input key에 해당하는 데이터를 evaluate에 넣어서 평가를 실행
정답이 맞았는지 correct or incorrect로 평가
함수를 생성해 LangSmith에 테스트 데이터셋 업로드 (랜덤 100개)
- 100개 질문을 테스트하는데 약 10분 소요
- 맞았는데 incorrect로 나온 문장들 제외하면 incorrect 3개 - 정확도 97%

Rouge
자동 요약 및 기계 번역의 품질을 평가하는 데 사용되는 평가지표
생성된 텍스트가 참조 텍스트의 중요 키워드를 얼마나 포함하는지 측정
n-gram 중첩을 기반으로 계산한다.
Rouge-1, Rouge-2, Rouge-L 등으로 계산한다.
BLEU
생성된 텍스트가 참조 텍스트와 얼마나 유사한지 측정
1-gram부터 4-gram까지의 정밀도를 계산
단어의 중요도를 구분하지 않고 문자열 일치만 확인하기에 한계가 있다.
METEOR
단어 매칭, 정밀도와 재현율 계산, F-mean 계산, 순서 패널티 계산
동의어와 어간 변형을 인식해 더 유연한 평가가 가능
Rouge와 달리 단어 순서를 명시적으로 고려
계산이 더 복잡하고 시간이 오래걸릴 수 있다.
SemScore
의미적 텍스트 유사성 기반
단순한 단어 매칭을 넘어 문장의 전반적인 의미를 고려한다.
사전 훈련된 언어 모델을 사용해 문장 임베딩을 생성한다.