Published on2026년 3월 18일Google TPU 완전 해부: Systolic Array가 행렬 곱셈을 어떻게 완벽히 해결하는가TPUGoogleSystolic-ArrayLLM서빙JAXXLA행렬곱셈딥러닝하드웨어Google TPU의 핵심 혁신인 Systolic Array가 행렬 곱셈을 어떻게 극한까지 최적화하는지 완전 해부합니다. INT8 추론부터 bfloat16, XLA 컴파일러, TPU Pod까지 실제 숫자와 코드로 깊이 파헤칩니다.
Published on2026년 3월 18일행렬이 GPU에서 어떻게 날아다니는가: GEMM부터 FlashAttention까지 완전 해부GEMM행렬곱셈FlashAttentionGPU병렬컴퓨팅LLM서빙CUDA최적화딥러닝 연산의 80% 이상을 차지하는 행렬 곱셈이 GPU에서 어떻게 최적화되는가. 순진한 O(n³) 구현부터 캐시 블로킹, cuBLAS, 그리고 FlashAttention의 IO-aware 혁신까지 완전 해부한다.