LLM API 프로덕션 호출의 진짜 어려움, RAG가 단순 조회가 아닌 이유, 에이전트 패턴(ReAct/Plan-Execute/ReWOO), 파인튜닝 언제/언제 하지 말까(LoRA/QLoRA/DPO), 벡터 DB 선택 매트릭스, LLM 평가의 근본적 어려움, 비용 최적화, Prompt Injection 방어까지. 데모가 아닌 '진짜 프로덕션' AI 앱을 만드는 법.
"Fine-tuning은 죽었다"는 소리도, "RAG로 다 된다"는 소리도 반쯤만 맞다. 2025년 시점에서 SFT/DPO/RLHF의 지형, LoRA·QLoRA로 가볍게 튜닝하는 실전, 합성 데이터 파이프라인, 한국어 모델(Solar, Qwen, Llama) 파인튜닝, 그리고 Fine-tune vs RAG vs Prompt의 경계선을 한 글로 정리합니다.
LLaMA 3, GPT-4, Claude 같은 대형 모델을 효율적으로 훈련하고 서빙 가능하게 만든 핵심 최적화, FlashAttention과 그 후속 기법들. 이 글은 efficient attention을 처음부터 해부합니다. Naive attention의 O(N²) 메모리 문제, Tri Dao의 2022년 IO-aware 통찰, Tiling과 Online Softmax, SRAM vs HBM 활용, FlashAttention-2/3의 진화, PagedAttention(vLLM)이 KV cache를 OS 가상 메모리처럼 다룬 이유, Multi-Query/Grouped-Query Attention, Sliding Window, Ring Attention까지 — 현대 LLM 인프라의 성능 비밀을 제대로 이해하고 싶은 엔지니어를 위한 종합 가이드입니다.
LLM을 "프롬프트에 답하는 블랙박스"로만 쓰면 임계점에서 막힌다. Transformer의 Attention이 실제로 어떻게 토큰 관계를 계산하는지, Pre-training → SFT → RLHF → DPO 파이프라인이 왜 이 순서로 설계됐는지, RAG 1/2/3세대의 차이와 Agentic RAG의 본질, Agent 설계(ReAct, Plan-and-Execute, Multi-Agent)의 근본 패턴, 그리고 LLM 평가가 왜 미해결 문제인지까지 — 블랙박스를 뜯어보는 한 편. Season 2의 여섯 번째, 2025년 엔지니어의 필수 교양.
Anthropic이 2024년 말 공개하고 2025년에 사실상 표준이 된 MCP. Resources·Tools·Prompts·Sampling 스펙과 전송 계층, OAuth 2.1 인증, 주요 서버(GitHub/Slack/Linear/Chrome/Playwright), 직접 서버 만들기, 보안 공격 벡터, 엔터프라이즈 운영까지. "LLM 시대의 USB-C"를 한 글로 해부합니다.
2023년엔 "주문"이었고, 2024년엔 "기술"이었고, 2025년엔 "과학"이 된 프롬프트 엔지니어링. Chain-of-Thought, Self-consistency, Tree-of-Thoughts, DSPy 자동 최적화, Structured Output, 프롬프트 버저닝, 모델 간 이관까지. 실전 운영 관점에서 한 글로 정리합니다.
LLM에 외부 지식을 붙이는 가장 실용적인 패턴, RAG. 2025년 시점에서 임베딩 모델 선택, 청킹 전략, 벡터 DB 선택, Rerank, Hybrid Search, 그리고 Fine-tuning과의 경계까지. Notion AI와 Claude의 검색 아키텍처를 해부하고, 한국어 RAG의 특수성과 비용·지연시간 최적화 체크리스트를 한 호흡에 정리합니다.
2025년은 Agent 원년이자 Physical AI 태동의 해였다. 2026년 이후 기술 지형을 LLM Next Wave, Agents 주류화, 로봇·Physical AI, BCI, 양자 컴퓨팅, AR 2.0, CRISPR·합성생물학, Space Compute, 에너지 전환, AI 거버넌스까지 — 엔지니어가 지금 준비해야 할 5가지 역량과 함께 완전 해부한다.
ChatGPT, Claude, Gemini의 공통 기반인 Transformer를 완전 분석. Attention 메커니즘, positional encoding, multi-head, encoder vs decoder, GPT와 BERT의 차이까지 — Transformer의 모든 것을 720줄로 수학과 함께 파헤친다.
BFCL(Berkeley Function Calling Leaderboard)의 모든 것! 벤치마크 카테고리(Simple/Multiple/Parallel/Relevance/AST), 평가 메트릭, 모델 성능 비교(Claude/GPT/Gemini/Llama), 자체 모델 평가 방법, Tool Calling 개선 전략.
LLM 학습 데이터 제작의 모든 것! Hugging Face 데이터셋(종류/로딩/변환), 한국어 데이터 수집(크롤링/합성/번역), 전처리(토크나이징/정제/중복제거), Instruction Tuning 포맷(Alpaca/ShareGPT/OpenAI), 품질 관리, RLHF/DPO 데이터셋.
Zero-shot부터 Chain-of-Thought, Tree-of-Thought, ReAct, Few-shot, Self-Consistency까지 — 개발자를 위한 프롬프트 엔지니어링 30가지 기법을 실전 예시와 함께. Claude, GPT-4, Gemini에서 최대 성능을 끌어내는 방법.
HuggingFace 트렌딩 논문 TOP 10과 2025년 AI 연구 10대 트렌드를 개발자 관점에서 리뷰합니다. DeepSeek-R1의 순수 RL 추론, Nemotron-Cascade 30B/3B MoE, GRPO, vLLM PagedAttention, 100만 토큰 컨텍스트의 한계, 비디오 생성 벤치마크까지.
2026년 3월 Anthropic이 Claude Opus 4.6/Sonnet 4.6의 1M 토큰 컨텍스트 윈도우를 GA로 발표했다. 기존 128K~200K 제한에서 1M으로의 확장이 가져오는 활용 패러다임의 전환, 실전 활용 패턴 5가지, RAG 대비 트레이드오프, 비용 최적화 전략까지 종합 가이드를 제공한다.
LLM 정렬 기술의 핵심 논문들을 심층 분석합니다. InstructGPT의 RLHF 파이프라인, Anthropic의 Constitutional AI, DPO의 수학적 기반, PPO 학습 안정성, 그리고 KTO/IPO/ORPO 등 최신 연구까지 체계적으로 비교하고 실무 적용 방안을 정리합니다.
임베딩의 기본 개념부터 주요 모델 비교(OpenAI, Cohere, BGE, E5, GTE, Jina), Sentence Transformers 활용, 벡터 데이터베이스(Pinecone, Weaviate, Milvus, Chroma, FAISS) 인덱싱 전략, 유사도 검색, RAG 파이프라인 통합, 파인튜닝, MTEB 벤치마크 평가까지 임베딩 모델의 모든 것을 실전 코드와 함께 체계적으로 다룹니다.
Zero-shot/Few-shot 프롬프팅의 기초부터 Chain-of-Thought(CoT), Self-Consistency, Tree-of-Thought(ToT), ReAct 패턴의 이론과 구현, 구조화된 출력 프롬프팅, 프롬프트 체이닝, 평가 메트릭, 일반적인 안티패턴, 프로덕션 최적화까지 LLM 프롬프트 엔지니어링의 고급 기법을 실전 코드와 함께 체계적으로 다룹니다.
RAG(Retrieval-Augmented Generation) 파이프라인의 프로덕션 구축을 체계적으로 다룹니다. 임베딩 모델 비교, 벡터 DB 선택(Pinecone·Milvus·Weaviate·Qdrant·Chroma), 청킹 전략, 하이브리드 검색, 리랭킹, RAGAS 평가 메트릭, 장애 대응까지 실전 운영 노하우를 제공합니다.
LLM 프롬프트 엔지니어링의 고급 기법을 체계적으로 다룹니다. Chain-of-Thought, Few-shot, ReAct, Self-Consistency, Tree of Thoughts 패턴의 원리와 구현 코드를 제공하고, 프로덕션 환경에서의 프롬프트 관리 전략과 평가 방법론을 설명합니다.
LLM의 롱 컨텍스트 처리를 가능하게 하는 KV Cache의 원리부터 메모리 소비 분석, MQA·GQA·PagedAttention·슬라이딩 윈도우·Ring Attention 등 최적화 기법, 모델별 컨텍스트 윈도우 비교, Needle-in-a-Haystack 벤치마크까지 실무 관점에서 포괄적으로 다룹니다.
RAG(Retrieval-Augmented Generation) 시스템의 품질을 체계적으로 평가하는 방법과 흔히 발생하는 실패 패턴들을 분석합니다. Retriever, Reranker, Generator 각 컴포넌트의 평가 지표부터 RAGAS, DeepEval 같은 프레임워크 비교, 그리고 실전 디버깅 워크플로우까지 다룹니다.
LLM 구조화된 출력의 핵심 원리인 Constrained Decoding부터 JSON Schema 기반 출력 제어, Outlines·XGrammar·llguidance 엔진 비교, Function Calling 통합, 그리고 프로덕션 환경 적용 전략까지 다루는 실전 가이드.
Test-Time Scaling(TTS)은 학습 파라미터를 늘리지 않고 추론 시점의 계산 예산을 늘려 성능을 높이는 접근이다. 이 글은 Best-of-N, Self-Consistency, Tree Search, Verifier/Reranker 기반 방법을 논문 맥락과 실무 적용 관점에서 정리한다.
Anthropic의 공식 CLI 도구인 Claude Code의 설치부터 핵심 명령어, 슬래시 커맨드, MCP 서버 연동, 멀티 에이전트 아키텍처, IDE 통합, CLAUDE.md 활용법, 커스텀 훅까지 — AI 코딩 에이전트의 모든 기능을 실전 예제와 함께 완벽 정리한다.