- Published on
이산 액션 토큰의 한계를 넘어, 행동을 연속값으로 생성하는 두 흐름을 살펴봅니다. Diffusion Policy는 행동을 디노이징으로 생성하고, π0는 flow-matching으로 고주파 연속 액션을 만듭니다. 두 접근의 아이디어, 아키텍처, 제어 주파수, 강점과 한계를 정리합니다.
천천히 올바르게. AI Researcher & DevOps Engineer Youngju's tech blog. GPU/CUDA, LLM, MLOps, Kubernetes AI workloads, distributed training, and data engineering.