LLM 학습 데이터 제작의 모든 것! Hugging Face 데이터셋(종류/로딩/변환), 한국어 데이터 수집(크롤링/합성/번역), 전처리(토크나이징/정제/중복제거), Instruction Tuning 포맷(Alpaca/ShareGPT/OpenAI), 품질 관리, RLHF/DPO 데이터셋.
Scale AI($14B 기업가치)가 이끄는 AI 훈련 데이터 산업을 완전 분석합니다. 데이터 라벨링의 원리, RLHF 데이터 파이프라인, Scale AI vs Labelbox vs Snorkel 비교, 데이터 품질 관리, 자동 라벨링(Auto-labeling), 그리고 이 분야의 커리어 기회까지.