- Published on
이미지·텍스트·오디오·비디오를 하나의 모델로 다루는 멀티모달 AI의 학습 원리를 정리합니다. 모달리티 정렬과 대조학습, 융합 방식, 공유 임베딩 공간, 사전학습과 파인튜닝, 데이터와 평가, 그리고 환각 같은 한계까지 학습 파이프라인을 코드와 함께 살펴봅니다.
천천히 올바르게. AI Researcher & DevOps Engineer Youngju's tech blog. GPU/CUDA, LLM, MLOps, Kubernetes AI workloads, distributed training, and data engineering.