LLM 제품을 빠르게 만드는 법은 쉬워졌다. 지속 가능하게 돌리는 법이 어렵다. 모델·프롬프트·평가셋의 3축 버전 관리, Shadow/Canary/Blue-Green 배포, 토큰·캐시·모델 라우팅으로 비용 통제, 조직 구조(AI 플랫폼/Model 플랫폼/Product AI), 실패 사례, KPI·온콜까지. MLOps의 연장선이되, LLM 고유의 과제를 정면으로 다루는 한 편.
모델을 학습하는 것과 프로덕션에서 운영하는 것은 완전히 다른 게임이다. Serving(TorchServe·Triton·vLLM·TGI), Feature Store(Feast·Tecton), Training Infra(Ray·Determined), Experiment Tracking(MLflow·W&B), Data/Concept Drift 감지, Model A/B 테스트와 Shadow Deployment, 그리고 GPU 경제학(on-demand·spot·자체 구매)까지 — "논문에서 프로덕션까지의 거리"를 메우는 실전 MLOps 한 편. Season 2의 일곱 번째.
2025년 AI 직무 생태계를 완전히 해부합니다. OpenAI/Anthropic/DeepMind 채용 트렌드, FDE 800% 수요 폭증, AI Safety Engineer 45% 연봉 상승, Context Engineer 등장, 한국 SI(삼성SDS/LG CNS) AI 전환 — 15개 AI 직군별 역할, 필수 역량, 연봉, 학습 로드맵.
KServe를 활용한 Kubernetes 기반 모델 서빙을 다룹니다. InferenceService CRD로 모델 배포, Canary 전략으로 안전한 롤아웃, Transformer로 전후처리 파이프라인, InferenceGraph로 DAG 기반 복합 추론까지 프로덕션 운영 전략을 코드와 함께 구현합니다.
Kubeflow Pipelines를 활용한 ML 워크플로우 오케스트레이션을 실전 중심으로 다룹니다. KFP v2 SDK 아키텍처, 파이프라인 컴포넌트 작성, 캐싱 전략, Argo Workflows/Airflow 비교, 장애 대응까지 프로덕션 환경에서 필요한 전략을 상세히 설명합니다.
MLflow를 활용한 ML 실험 추적, 모델 레지스트리, 배포 파이프라인을 실전 중심으로 다룹니다. Tracking Server 아키텍처부터 자동 로깅, 모델 버전 관리, Kubernetes/Docker 배포까지 프로덕션 환경에서 필요한 MLOps 전략을 상세히 설명합니다.
Slurm 워크로드 매니저를 완전 정복한다. 아키텍처(slurmctld/slurmd/slurmdbd), 핵심 개념(파티션/QoS/Fairshare), 필수 명령어(sbatch/srun/salloc), GPU 스케줄링(GRES/MIG/MPS), 다중 노드 분산 학습(PyTorch DDP/DeepSpeed/Horovod), 컨테이너 통합(Singularity/Enroot+Pyxis), 설정·모니터링·트러블슈팅까지 실전 관점에서 총정리한다.