- Published on
Mixture of Experts 아키텍처의 핵심 논문을 분석하고, GShard, Switch Transformer, Mixtral, DeepSeek-MoE의 라우팅 전략과 학습 안정성 기법을 비교합니다.
천천히 올바르게. AI Researcher & DevOps Engineer Youngju's tech blog. GPU/CUDA, LLM, MLOps, Kubernetes AI workloads, distributed training, and data engineering.