- Published on
NVIDIA Triton Inference Server를 활용한 GPU 모델 서빙 최적화 가이드. Dynamic Batching, Model Ensemble, TensorRT 통합, 멀티 모델 서빙, Kubernetes 배포, 성능 프로파일링과 프로덕션 트러블슈팅까지 다룹니다.
천천히 올바르게. AI Researcher & DevOps Engineer Youngju's tech blog. GPU/CUDA, LLM, MLOps, Kubernetes AI workloads, distributed training, and data engineering.