Hadoop의 무덤 위에 선 2025년 데이터 스택. Lakehouse·Iceberg/Delta/Hudi·dbt/SQLMesh·Airflow vs Dagster vs Prefect·Flink vs Spark Streaming·DuckDB·ClickHouse·Snowflake vs Databricks vs BigQuery·Semantic Layer·Data Contracts·Feature Store·AI 임베딩 파이프라인까지 — 데이터 스택 전부.
Season 5 Ep 1. 2024년 Snowflake가 Iceberg를 네이티브 지원하고 Databricks가 Tabular를 $1B+로 인수하면서 "Open Table Format 전쟁"은 끝났다. 남은 건 Iceberg를 어떻게 잘 쓸 것인가. Iceberg·Delta·Hudi 아키텍처 비교, Parquet·ORC·Puffin 내부, 카탈로그 전쟁(Glue/Polaris/Unity/Nessie), 성능 튜닝, 마이그레이션, 한국 기업의 실무 의사결정까지.
Season 5 Ep 3. 하나의 엔진이 모든 OLAP을 커버하지 않는다. DuckDB는 단일 노드의 혁명을, ClickHouse는 실시간 OLAP을, Snowflake·BigQuery는 관리형 편리함을, StarRocks·Doris·Pinot·Druid는 실시간 MPP를, Trino는 연합 쿼리를 맡는다. 각 엔진의 강약점, 벤치마크의 함정, 적재적소 배치 패턴, 한국 기업 선택 가이드까지.
Snowflake Data Engineer 역할을 완전 분석합니다. Snowflake 아키텍처(스토리지-컴퓨트 분리), Snowpark, Cortex AI, Iceberg 테이블, dbt 연동, 스트리밍(Snowpipe), 비용 최적화 — 면접 질문 20선과 학습 로드맵.