2010년 Netflix가 왜 프로덕션 서버를 무작위로 죽이기 시작했나. Chaos Monkey 철학부터 4가지 원칙, Simian Army 전체 구성, LitmusChaos/Chaos Mesh/AWS FIS 도구 비교, Game Day 훈련 설계, 비난 없는 포스트모템까지.
Chaos Engineering의 모든 것! 카오스 원칙(가설→실험→관찰→개선), Chaos Monkey/Litmus Chaos/Chaos Mesh, 장애 주입(네트워크/CPU/메모리/Pod/AZ), Game Day 운영, 점진적 도입 전략, Netflix/Amazon 사례, SRE와의 관계.
SLI/SLO/Error Budget을 활용한 신뢰성 엔지니어링의 이론과 실전을 다룹니다. SLI 지표 선정, SLO 수치 설정, Error Budget 정책, Burn Rate 알럿, Prometheus 기반 구현까지 프로덕션 서비스의 신뢰성 관리 전체 파이프라인을 코드와 함께 구축합니다.