- Published on
RLHF의 한계를 극복한 DPO, IPO, KTO 등 최신 인간 피드백 정렬 기법의 논문 리뷰와 TRL 기반 실전 구현 가이드. 알고리즘 비교, 하이퍼파라미터 튜닝, 실패 사례까지.
천천히 올바르게. AI Researcher & DevOps Engineer Youngju's tech blog. GPU/CUDA, LLM, MLOps, Kubernetes AI workloads, distributed training, and data engineering.