Retrieval-Augmented Generation(RAG) 연구의 진화를 논문 중심으로 추적합니다. 초기 RAG(Lewis et al.)부터 RETRO의 대규모 검색, Self-RAG의 자기 반성, Corrective-RAG의 검색 품질 평가까지 핵심 아키텍처와 벤치마크를 비교 분석합니다.
RAG(Retrieval-Augmented Generation) 시스템의 품질을 체계적으로 평가하는 방법과 흔히 발생하는 실패 패턴들을 분석합니다. Retriever, Reranker, Generator 각 컴포넌트의 평가 지표부터 RAGAS, DeepEval 같은 프레임워크 비교, 그리고 실전 디버깅 워크플로우까지 다룹니다.