Tagged articles

Data Splits

1 articles · Page 1 of 1

Sep 23, 2021 · Big Data

Handling Non‑Splittable gzip Files in Hadoop and Spark: MapReduce Splits and Performance Considerations

This article explains how a 10 GB gzip file is stored and processed on HDFS, details the MapReduce split calculation using GzipCodec, and discusses why Spark reads such non‑splittable files with a single task, recommending file splitting or format conversion for better performance.

Data SplitsHadoopMapReduce

0 likes · 8 min read

Handling Non‑Splittable gzip Files in Hadoop and Spark: MapReduce Splits and Performance Considerations