- Published on
Sparse MoE 아키텍처의 수학적 원리, 라우팅 전략, 로드 밸런싱 기법을 분석하고, Switch Transformer에서 DeepSeek-V3·Qwen3-235B까지 최신 MoE 모델의 설계 선택과 실전 학습·추론 최적화를 다룬다.
천천히 올바르게. AI Researcher & DevOps Engineer Youngju's tech blog. GPU/CUDA, LLM, MLOps, Kubernetes AI workloads, distributed training, and data engineering.