왜 배열이 linked list를 이기는가, 왜 분기가 10배 느려지는가, M1이 Intel을 어떻게 이겼는가. CPU 파이프라인·Out-of-Order·L1~L3 캐시·브랜치 예측·Meltdown/Spectre·Apple Silicon·ARM/x86/RISC-V·SIMD·GPU SM/Warp·HBM/CXL까지 — 소프트웨어 엔지니어가 알아야 할 2025년 하드웨어 전부.
모든 현대 CPU의 숨은 병렬성 SIMD. 이 글은 CPU 벡터화를 처음부터 해부합니다. 1996년 MMX부터 AVX-512, ARM NEON, SVE2까지의 진화, 128/256/512 bit 레지스터와 대표 명령어, horizontal/vertical 연산 패턴, SoA vs AoS 데이터 레이아웃, 자동 벡터화의 한계, C/C++ intrinsics 직접 사용, simdjson이 4 GB/s JSON 파싱을 달성한 방법, Highway와 std::simd로 포터블 SIMD 작성, Apple Silicon과 WebAssembly SIMD, 그리고 ML 추론/압축/암호화에서의 실전 활용까지 — 현대 고성능 시스템의 핵심 기법을 제대로 이해하고 싶은 엔지니어를 위한 종합 가이드입니다.