Evaluation

All Posts

Published on
2026년 4월 15일
AI 엔지니어링 실전 — LLM API, RAG, 에이전트, LoRA/DPO, 벡터 DB, 평가, 관측, Prompt Injection 완전 가이드 (2025)
ai-engineering llm rag agent lora dpo vector-database embeddings evaluation observability prompt-injection langgraph
LLM API 프로덕션 호출의 진짜 어려움, RAG가 단순 조회가 아닌 이유, 에이전트 패턴(ReAct/Plan-Execute/ReWOO), 파인튜닝 언제/언제 하지 말까(LoRA/QLoRA/DPO), 벡터 DB 선택 매트릭스, LLM 평가의 근본적 어려움, 비용 최적화, Prompt Injection 방어까지. 데모가 아닌 '진짜 프로덕션' AI 앱을 만드는 법.
Published on
2026년 4월 15일
LLM 완전 가이드 — Transformer·Attention·RLHF·RAG·Agent·Evaluation (Season 2 Ep 6, 2025)
llm transformer attention rlhf dpo rag agent evaluation ai-engineering reasoning-models season-2
LLM을 "프롬프트에 답하는 블랙박스"로만 쓰면 임계점에서 막힌다. Transformer의 Attention이 실제로 어떻게 토큰 관계를 계산하는지, Pre-training → SFT → RLHF → DPO 파이프라인이 왜 이 순서로 설계됐는지, RAG 1/2/3세대의 차이와 Agentic RAG의 본질, Agent 설계(ReAct, Plan-and-Execute, Multi-Agent)의 근본 패턴, 그리고 LLM 평가가 왜 미해결 문제인지까지 — 블랙박스를 뜯어보는 한 편. Season 2의 여섯 번째, 2025년 엔지니어의 필수 교양.
Published on
2026년 4월 13일
Advanced RAG 파이프라인 완전 가이드 2025: 청킹 전략, 리랭킹, 에이전틱 RAG, 평가
rag retrieval-augmented-generation chunking reranking agentic-rag evaluation langchain llamaindex embedding llm 2026-04 2026-04-13
Advanced RAG의 모든 것! 문서 청킹 전략(Semantic/Recursive/Agentic), 리랭킹(Cohere/ColBERT/Cross-encoder), Query Transformation, 에이전틱 RAG(Self-RAG/CRAG), Multi-modal RAG, 평가(RAGAS/TruLens), 프로덕션 최적화.
Published on
2026년 3월 25일
BFCL 벤치마크 완전 가이드 2025: Tool Calling 성능 평가, 리더보드 분석, 모델 비교
bfcl benchmark tool-calling function-calling evaluation leaderboard llm claude gpt gemini 2026-03 2026-03-25
BFCL(Berkeley Function Calling Leaderboard)의 모든 것! 벤치마크 카테고리(Simple/Multiple/Parallel/Relevance/AST), 평가 메트릭, 모델 성능 비교(Claude/GPT/Gemini/Llama), 자체 모델 평가 방법, Tool Calling 개선 전략.
Published on
2026년 3월 17일
AI 벤치마크 데이터셋 완전 가이드: ImageNet, COCO, GLUE, MMLU, HumanEval
benchmark datasets imagenet coco glue mmlu evaluation ai 2026-03 2026-03-17
AI 모델 평가를 위한 주요 벤치마크 데이터셋 완전 가이드. 컴퓨터 비전(ImageNet, COCO, ADE20K), NLP(GLUE, SuperGLUE, SQuAD, MMLU), 코드(HumanEval, MBPP), LLM 평가(HELM, MT-Bench)까지 상세히 분석합니다.
Published on
2026년 3월 17일
Gemini API를 프로덕션에 올릴 때 필요한 Prompt, Guardrails, Evaluation
gemini generative-ai ai llmops prompt-engineering evaluation 2026-03 2026-03-17
Gemini API를 실서비스에 붙일 때 필요한 프롬프트 설계, structured output, safety 정책, 평가 루프, 비용 통제 방법을 운영 관점에서 정리한 가이드입니다.
Published on
2026년 3월 17일
LLM 평가와 벤치마킹 완전 가이드: MMLU, MT-Bench, RAGAS, LM-Eval
llm evaluation benchmark ragas lm-eval 2026-03 2026-03-17
LLM을 올바르게 평가하는 완전 가이드. MMLU, MT-Bench, HumanEval 같은 표준 벤치마크부터 RAGAS로 RAG 시스템 평가, LM-Evaluation-Harness 실전 사용, 그리고 프로덕션 LLM 평가 파이프라인까지 상세히 다룹니다.
Published on
2026년 3월 10일
챗봇 평가 체계 구축 가이드: LLM-as-Judge·RAGAS·자동화 테스트 파이프라인
chatbot evaluation ragas llm-as-judge testing 2026-03 2026-03-10
LLM 기반 챗봇의 품질 평가 체계를 체계적으로 구축하는 방법을 다룹니다. RAGAS 프레임워크를 활용한 RAG 파이프라인 평가, LLM-as-Judge 패턴, 자동화 테스트 파이프라인 구축, 프로덕션 모니터링까지 실전 가이드를 제공합니다.
Published on
2026년 3월 7일
RAG 품질 평가와 실패 패턴 분석: 검색 증강 생성의 진단과 개선
RAG LLM evaluation retrieval-augmented-generation RAGAS DeepEval hallucination vector-search 2026-03 2026-03-07
RAG(Retrieval-Augmented Generation) 시스템의 품질을 체계적으로 평가하는 방법과 흔히 발생하는 실패 패턴들을 분석합니다. Retriever, Reranker, Generator 각 컴포넌트의 평가 지표부터 RAGAS, DeepEval 같은 프레임워크 비교, 그리고 실전 디버깅 워크플로우까지 다룹니다.
Published on
2026년 3월 4일
RAG 챗봇 평가 실전: 오프라인/온라인 품질 측정부터 프로덕션 가드레일까지
chatbot rag evaluation llmops production ragas deepeval trulens
RAG 챗봇을 실제 서비스에서 안정적으로 운영하기 위한 평가 체계를 정리한다. 오프라인 벤치마크, LLM-as-a-Judge, 온라인 실험, 알림 임계치, 회귀 방지 파이프라인까지 코드 중심으로 다룬다.

Evaluation

evaluation (10)