왜 배열이 linked list를 이기는가, 왜 분기가 10배 느려지는가, M1이 Intel을 어떻게 이겼는가. CPU 파이프라인·Out-of-Order·L1~L3 캐시·브랜치 예측·Meltdown/Spectre·Apple Silicon·ARM/x86/RISC-V·SIMD·GPU SM/Warp·HBM/CXL까지 — 소프트웨어 엔지니어가 알아야 할 2025년 하드웨어 전부.
외부 API에 모든 걸 의존하던 시절이 끝나간다. 2025년은 소비자 GPU와 Apple Silicon에서 30B–70B 모델이 "쓸 만하게" 돌아가는 시대. 모델 선택(Llama/Qwen/Mistral/Gemma/Solar), 엔진(vLLM/TGI/SGLang/llama.cpp/Ollama), 양자화(AWQ/GPTQ/EXL2/GGUF), 하드웨어, 비용·전력, 그리고 Privacy-first 제품의 실전까지.
Apple M4/M5 칩의 유니파이드 메모리 아키텍처가 LLM 추론에 미치는 영향을 깊이 파헤칩니다. Neural Engine, MLX 프레임워크, llama.cpp Metal 백엔드를 활용한 실전 벤치마크와 함께 NVIDIA GPU 대비 실질적인 선택 기준을 제시합니다.