배포한 그 순간, 사용자 화면은 블랙박스가 된다. 2025년 Sentry·Datadog RUM·PostHog·LogRocket·Bugsnag 비교, Source Map 설정, Session Replay의 가치와 윤리, Core Web Vitals 연동, AI 기반 이상 탐지, 그리고 Privacy-safe 로깅까지 프런트엔드 모니터링의 모든 것.
Season 5 Ep 8. 관측성 없이는 운영 없고, 운영 없이는 제품 없다. OpenTelemetry의 3대 시그널(Metric·Log·Trace) 통합, Grafana 스택(Prometheus·Loki·Tempo·Mimir) vs Datadog·New Relic·Splunk, SigNoz·Honeycomb·Axiom의 새 세대, SLO·SLI·Error Budget 운영, LLM 관측성(LangFuse·LangSmith·Phoenix·Helicone), 한국 기업의 관측성 스택, "관측성은 제품 품질"이라는 선언까지.
"관측할 수 없으면 운영할 수 없다." Observability는 로그 수집·모니터링의 상위 개념으로, 알려지지 않은 문제(unknown unknowns)를 시스템 상태만으로 추론할 수 있게 하는 능력이다. 이 글은 Metric·Log·Trace 3축, Profile을 더한 4축, OpenTelemetry 표준의 진짜 가치, eBPF 커널 수준 관측, SLO·SLI·Error Budget 실전 설계, 그리고 Grafana Stack vs Elastic vs Datadog 2025 선택까지를 한 편에 정리한다. Season 2의 아홉 번째.
분산 시스템에서 가장 중요한 역량은 "모르는 것을 알게 되는 능력"이다. 2024-2025년 관측 가능성은 혁명의 한복판에 있다. OpenTelemetry 1.0 GA, eBPF 기반 agentless 프로파일링, Continuous Profiling 주류화, Datadog vs Grafana vs Honeycomb 경쟁 재편. Metrics/Logs/Traces/Profiles 4-pillar부터 SLO 실전까지 추적한다.
Observability의 모든 것! Three Pillars(로그/메트릭/트레이스), OpenTelemetry, Prometheus+Grafana, ELK Stack, 분산 트레이싱(Jaeger/Tempo), 알림 전략(PagerDuty/OpsGenie), SLO/SLI/SLA, 비용 최적화.