데이터 엔지니어링은 더 이상 "ETL 돌리는 일"이 아니다. 2025년의 데이터 엔지니어는 Lakehouse 아키텍처(Iceberg·Delta·Hudi)를 설계하고, Streaming(Flink·Kafka)과 Batch(Spark)를 결합하며, dbt로 데이터 모델링 표준화를 이끌고, Data Mesh로 조직 경계를 재정의하고, Data Contract로 팀 간 인터페이스를 관리한다. 이 글은 "데이터가 일하는 방식"이 달라진 2025년의 데이터 엔지니어링 한 편. Season 2의 여덟 번째.
Kafka를 쓰는 곳은 많지만 내부를 아는 사람은 드물다. 파티션과 Leader/ISR, Log Segment의 물리적 구조, Exactly-Once Semantics의 진실, Transactional Outbox, Event Sourcing vs CDC, Schema Registry, 100ms SLA 달성법까지.
마이크로서비스 통신의 모든 것! 동기 vs 비동기 패턴, REST vs gRPC vs GraphQL, Kafka 이벤트 드리븐, Saga 패턴(Choreography vs Orchestration), Outbox 패턴, 분산 트랜잭션, 멱등성, 회복탄력성 패턴(Circuit Breaker, Retry, Bulkhead).
Season 5 Ep 2. "모든 데이터를 실시간으로"는 2020년의 약속이었다. 2025년은 실용주의의 시대 — 배치와 스트리밍의 경계는 흐려졌고, 진짜 질문은 "이 데이터는 얼마나 신선해야 SLA를 만족하는가"로 바뀌었다. Flink·RisingWave·Materialize·ksqlDB 비교, Kappa/Lambda의 2025년 버전, Iceberg v3 row-level delete와 실시간 upsert, CDC 파이프라인, 비용·지연 트레이드오프, 한국 실무 사례까지.
Kafka가 초당 수백만 메시지를 처리하고 Netflix가 단일 서버로 수십 Gbps를 뿜어내는 비결, zero-copy I/O를 완전 분석한다. read/write, sendfile, splice, mmap, O_DIRECT까지 — 이론과 실전을 720줄로 깊이 있게 다룬다.
데이터 엔지니어링의 모든 것! ETL vs ELT, Apache Spark(PySpark), Apache Airflow(DAG/Operator/Sensor), 실시간 스트리밍(Kafka+Flink), dbt(데이터 변환), 데이터 웨어하우스(BigQuery/Snowflake/Redshift), 데이터 품질, 모니터링.
EAI(기업 애플리케이션 통합)의 모든 것을 한 글에! Hub-and-Spoke, ESB, API-Led, 이벤트 기반 아키텍처 패턴 비교, Gregor Hohpe의 Enterprise Integration Patterns, MuleSoft/Apache Camel/Dell Boomi 플랫폼 비교, 실전 ERP-CRM-WMS 연동 프로젝트까지.
Spring WebFlux의 리액티브 프로그래밍부터 Kafka 스트리밍, ZooKeeper에서 KRaft로의 전환, SSE/WebSocket/gRPC Streaming API까지 — 실시간 데이터 처리 아키텍처를 위한 개발자 완전 가이드. 벤치마크, 코드 예제, 아키텍처 패턴 총정리.
토스뱅크 Real-Time Data 팀의 Kafka & Streaming Data Engineer JD를 완전 분석합니다. Kafka Broker 운영, Spring Boot Kafka Client, Active-Active 이중화, CDC, Flink, ClickHouse까지 — 합격을 위한 기술스택 학습 로드맵과 면접 준비 전략.