LLM API 프로덕션 호출의 진짜 어려움, RAG가 단순 조회가 아닌 이유, 에이전트 패턴(ReAct/Plan-Execute/ReWOO), 파인튜닝 언제/언제 하지 말까(LoRA/QLoRA/DPO), 벡터 DB 선택 매트릭스, LLM 평가의 근본적 어려움, 비용 최적화, Prompt Injection 방어까지. 데모가 아닌 '진짜 프로덕션' AI 앱을 만드는 법.
LLM을 "프롬프트에 답하는 블랙박스"로만 쓰면 임계점에서 막힌다. Transformer의 Attention이 실제로 어떻게 토큰 관계를 계산하는지, Pre-training → SFT → RLHF → DPO 파이프라인이 왜 이 순서로 설계됐는지, RAG 1/2/3세대의 차이와 Agentic RAG의 본질, Agent 설계(ReAct, Plan-and-Execute, Multi-Agent)의 근본 패턴, 그리고 LLM 평가가 왜 미해결 문제인지까지 — 블랙박스를 뜯어보는 한 편. Season 2의 여섯 번째, 2025년 엔지니어의 필수 교양.
BFCL(Berkeley Function Calling Leaderboard)의 모든 것! 벤치마크 카테고리(Simple/Multiple/Parallel/Relevance/AST), 평가 메트릭, 모델 성능 비교(Claude/GPT/Gemini/Llama), 자체 모델 평가 방법, Tool Calling 개선 전략.
AI 모델 평가를 위한 주요 벤치마크 데이터셋 완전 가이드. 컴퓨터 비전(ImageNet, COCO, ADE20K), NLP(GLUE, SuperGLUE, SQuAD, MMLU), 코드(HumanEval, MBPP), LLM 평가(HELM, MT-Bench)까지 상세히 분석합니다.
RAG(Retrieval-Augmented Generation) 시스템의 품질을 체계적으로 평가하는 방법과 흔히 발생하는 실패 패턴들을 분석합니다. Retriever, Reranker, Generator 각 컴포넌트의 평가 지표부터 RAGAS, DeepEval 같은 프레임워크 비교, 그리고 실전 디버깅 워크플로우까지 다룹니다.