Big-data

All Posts

Published on
2026년 4월 15일
Apache Spark 내부 완전 가이드 2025: RDD, Catalyst Optimizer, Tungsten, Whole-Stage Codegen, Shuffle 심층 분석
spark catalyst tungsten rdd whole-stage-codegen shuffle dataframe sql-optimization big-data distributed-computing
Spark가 같은 쿼리를 MapReduce보다 100배 빠르게 처리하는 비결. RDD부터 DataFrame/Dataset, Catalyst optimizer, Tungsten project, whole-stage code generation, shuffle 최적화까지 720줄로 완전 분석한다.
Published on
2026년 4월 15일
확률적 자료구조 완전 가이드 2025: Bloom Filter, HyperLogLog, Count-Min Sketch, 실전 활용
bloom-filter hyperloglog count-min-sketch probabilistic data-structures cache big-data 2026-04 2026-04-15
확률적 자료구조의 모든 것! Bloom Filter, Counting Bloom Filter, HyperLogLog, Count-Min Sketch, MinHash, Cuckoo Filter — 메모리 효율과 정확도의 트레이드오프, RocksDB/Redis/Cassandra/Spark의 실전 활용.
Published on
2026년 4월 15일
컬럼 지향 스토리지 완전 가이드 2025: Parquet, ORC, Apache Arrow, Dremel — 분석 DB가 10,000배 빠른 이유
columnar-storage parquet orc apache-arrow dremel spark snowflake clickhouse analytics big-data
Snowflake, BigQuery, Spark가 수 TB 데이터를 수 초에 쿼리하는 비결. Parquet의 Dremel 기반 구조, ORC, Apache Arrow의 메모리 포맷, RLE/Dictionary 압축, 벡터화 실행까지 720줄로 완전 분석한다.
Published on
2026년 4월 15일
확률적 데이터 구조 완전 가이드 2025: HyperLogLog, Count-Min Sketch, MinHash, T-Digest, Cuckoo Filter — Redis/Presto/Spark 실전 분석
probabilistic-data-structures hyperloglog count-min-sketch minhash t-digest cuckoo-filter redis cardinality-estimation streaming big-data
Redis가 12KB로 10억 개의 유니크 방문자를 세는 비결, HyperLogLog. Count-Min Sketch, MinHash, T-Digest, Cuckoo Filter까지 — 메모리와 정확도를 교환하는 확률적 자료구조의 세계를 720줄로 완전 분석한다.
Published on
2026년 4월 15일
Snowflake 아키텍처 완전 가이드 2025: Compute-Storage Separation, Micro-Partition, Virtual Warehouse, Zero-Copy Clone 심층 분석
snowflake data-warehouse compute-storage-separation micro-partition virtual-warehouse zero-copy-clone cloud big-data olap architecture
Snowflake가 어떻게 클라우드 데이터 웨어하우스 시장을 뒤엎었는가? Compute와 Storage의 분리, 마이크로 파티션, 가상 웨어하우스, zero-copy clone까지 — 현대 데이터 플랫폼의 기준이 된 아키텍처를 720줄로 완전 분석한다.
Published on
2026년 3월 14일
Apache Iceberg 데이터 레이크하우스: 테이블 포맷 혁신과 실전 운영 가이드
apache-iceberg data-lakehouse big-data hadoop spark table-format 2026-03 2026-03-14
Apache Iceberg의 아키텍처와 핵심 기능(Time Travel, Schema Evolution, Partition Evolution)을 분석하고, Spark/Trino 연동과 프로덕션 운영 전략을 다룹니다.
Published on
2026년 3월 8일
Hadoop 에코시스템 실전 가이드: HDFS, MapReduce, YARN 핵심 정리
hadoop hdfs mapreduce yarn big-data 2026-03 2026-03-08
Hadoop의 핵심 구성 요소인 HDFS, MapReduce, YARN의 아키텍처와 동작 원리를 이해하고, 클러스터 구축부터 성능 튜닝, 모니터링까지 실전 운영 노하우를 다루는 종합 가이드.
Published on
2026년 3월 8일
HBase 실전 가이드: 대규모 NoSQL 데이터 저장소 설계부터 운영까지
hadoop hbase nosql big-data database 2026-03 2026-03-08
HBase의 데이터 모델과 아키텍처를 이해하고, 테이블 설계, RowKey 전략, 읽기/쓰기 성능 최적화, Region 관리, 모니터링까지 실전 운영에 필요한 모든 것을 다루는 가이드.

Big-data

big-data (8)