텍스트만 다루던 시대가 끝났다. 2025년 LLM은 이미지·문서·영상·오디오를 자연스럽게 처리한다. GPT-4o/Claude 3.5/Gemini/Qwen2-VL/Pixtral 비교, Document AI와 레이아웃 이해, OCR의 현대화, 비디오·오디오, 한국어 문서 특수성, 그리고 멀티모달 RAG까지. 실전 케이스로 정리한 한 편.
HuggingFace 트렌딩 논문 TOP 10과 2025년 AI 연구 10대 트렌드를 개발자 관점에서 리뷰합니다. DeepSeek-R1의 순수 RL 추론, Nemotron-Cascade 30B/3B MoE, GRPO, vLLM PagedAttention, 100만 토큰 컨텍스트의 한계, 비디오 생성 벤치마크까지.