ChatGPT, Claude, Gemini의 공통 기반인 Transformer를 완전 분석. Attention 메커니즘, positional encoding, multi-head, encoder vs decoder, GPT와 BERT의 차이까지 — Transformer의 모든 것을 720줄로 수학과 함께 파헤친다.
Google의 BERT 논문을 심층 분석한다. Masked Language Model(MLM)과 Next Sentence Prediction(NSP)을 통한 양방향 사전학습, Fine-tuning 전략, 그리고 11개 NLP 벤치마크를 석권한 아키텍처의 핵심 원리를 수식과 코드 예제로 정리한다.