Vlm

All Posts

Published on
2026년 4월 15일
멀티모달 LLM 완전 가이드: Vision, 문서 이해, OCR, 비디오, 오디오, 한국어 특수성 (2025)
multimodal vision-llm document-ai ocr whisper vlm korean deep-dive series
텍스트만 다루던 시대가 끝났다. 2025년 LLM은 이미지·문서·영상·오디오를 자연스럽게 처리한다. GPT-4o/Claude 3.5/Gemini/Qwen2-VL/Pixtral 비교, Document AI와 레이아웃 이해, OCR의 현대화, 비디오·오디오, 한국어 문서 특수성, 그리고 멀티모달 RAG까지. 실전 케이스로 정리한 한 편.
Published on
2026년 3월 5일
LLM 멀티모달 비전-언어 모델 서빙과 최적화 실전 가이드
llm multimodal vlm vllm 2026-03 2026-03-05
비전-언어 모델(VLM)의 서빙 아키텍처 설계부터 vLLM 멀티모달 배포, 이미지 전처리 파이프라인, 양자화 최적화, 프로덕션 운영까지 실전 가이드.
Published on
2026년 3월 1일
자율주행/로보틱스 기술 스택 완전 정복: C++, ROS2, CUDA, TensorRT부터 VLM/VLA, 시뮬레이션까지
autonomous-driving robotics ros2 cuda tensorrt self-driving computer-vision sensor-fusion vla vlm carla simulation cpp deep-learning
자율주행과 로보틱스의 핵심 기술 스택을 총정리한다. Modern C++, ROS/ROS2, CUDA 병렬 프로그래밍, TensorRT 최적화, 모델 경량화(양자화/프루닝), 센서 퓨전(GPS/IMU/카메라/LiDAR), VLM/VLA 모델, SIL/HIL 테스팅, 시뮬레이션(CARLA/Isaac Sim), 자율주행 풀 스택, VR/AR 디지털 트윈, 클라우드 인프라까지 13개 핵심 영역을 실전 관점에서 정리한다.

Vlm

vlm (3)

멀티모달 LLM 완전 가이드: Vision, 문서 이해, OCR, 비디오, 오디오, 한국어 특수성 (2025)

LLM 멀티모달 비전-언어 모델 서빙과 최적화 실전 가이드

자율주행/로보틱스 기술 스택 완전 정복: C++, ROS2, CUDA, TensorRT부터 VLM/VLA, 시뮬레이션까지