Published on2026년 3월 17일GPU 메모리 관리 & LLM 추론 최적화: vLLM, PagedAttention, GPTQ, TensorRT-LLM까지GPU메모리LLM추론vLLMPagedAttentionGPTQTensorRT-LLM2026-032026-03-17HBM 메모리 계층, KV 캐시 계산, PagedAttention, GPTQ/AWQ 양자화, continuous batching, vLLM vs TensorRT-LLM 비교까지 LLM 추론 최적화 완전 가이드입니다.