2010년 Netflix가 왜 프로덕션 서버를 무작위로 죽이기 시작했나. Chaos Monkey 철학부터 4가지 원칙, Simian Army 전체 구성, LitmusChaos/Chaos Mesh/AWS FIS 도구 비교, Game Day 훈련 설계, 비난 없는 포스트모템까지.
분산 시스템에서 가장 중요한 역량은 "모르는 것을 알게 되는 능력"이다. 2024-2025년 관측 가능성은 혁명의 한복판에 있다. OpenTelemetry 1.0 GA, eBPF 기반 agentless 프로파일링, Continuous Profiling 주류화, Datadog vs Grafana vs Honeycomb 경쟁 재편. Metrics/Logs/Traces/Profiles 4-pillar부터 SLO 실전까지 추적한다.
Chaos Engineering의 모든 것! 카오스 원칙(가설→실험→관찰→개선), Chaos Monkey/Litmus Chaos/Chaos Mesh, 장애 주입(네트워크/CPU/메모리/Pod/AZ), Game Day 운영, 점진적 도입 전략, Netflix/Amazon 사례, SRE와의 관계.
Kubernetes 환경에서 Chaos Engineering을 실전 적용하는 종합 가이드. Litmus와 Chaos Mesh의 아키텍처 비교, ChaosExperiment 설계, Pod/Network/IO 장애 주입, GameDay 운영 프로세스, SLO 기반 정상 상태 검증, 그리고 실제 장애 복구 사례까지 다룹니다.