분산 트레이싱의 모든 것! Trace/Span/Context Propagation, OpenTelemetry SDK + Collector, Jaeger vs Tempo vs Zipkin, W3C Trace Context, 샘플링 전략(Head/Tail/Probabilistic), Auto-instrumentation, 비용 최적화.
분산 시스템에서 가장 중요한 역량은 "모르는 것을 알게 되는 능력"이다. 2024-2025년 관측 가능성은 혁명의 한복판에 있다. OpenTelemetry 1.0 GA, eBPF 기반 agentless 프로파일링, Continuous Profiling 주류화, Datadog vs Grafana vs Honeycomb 경쟁 재편. Metrics/Logs/Traces/Profiles 4-pillar부터 SLO 실전까지 추적한다.
Observability의 모든 것 — Monitoring과 Observability의 차이, 네 가지 기둥(Metrics, Logs, Traces, Profiling), Prometheus의 시계열 DB와 PromQL, OpenTelemetry의 통합 데이터 모델, Jaeger의 span/trace 모델, Loki의 label 인덱싱, Grafana 대시보드, SRE의 SLI/SLO/SLA, alerting 베스트 프랙티스, eBPF 기반 zero-instrumentation observability, cardinality 폭증과 비용 통제까지 1,400줄로 정리한 클라우드 네이티브 관찰 가능성 딥다이브.
W3C Baggage를 활용한 비즈니스 컨텍스트 전파, 자동·수동 계측 하이브리드 전략, 테일 기반 샘플링으로 비용 최적화, Semantic Conventions 표준화, OTLP gRPC vs HTTP 선택 전략까지 — OpenTelemetry로 분산 시스템의 가시성을 확보하는 5가지 핵심 전략을 아키텍트 관점에서 심층 분석한다.