Tagged articles

Bucketing

5 articles · Page 1 of 1

Dec 28, 2025 · Big Data

When to Use Hive Partitioning vs Bucketing: A Practical Guide

This article explains Hive's partitioning and bucketing techniques, compares their purposes, advantages, and pitfalls, and shows how to combine them with concrete SQL examples to improve query performance, reduce I/O, and optimize joins and sampling in large data warehouses.

BucketingData WarehouseHive

0 likes · 7 min read

When to Use Hive Partitioning vs Bucketing: A Practical Guide

Big Data Technology & Architecture

Dec 31, 2024 · Big Data

Eliminating Shuffle in Spark Joins with Storage Partitioned Join (SPJ) for Iceberg Tables

This article explains how Spark ≥ 3.3 introduces Storage Partitioned Join (SPJ) to avoid costly shuffle operations when joining partitioned V2 source tables such as Apache Iceberg, detailing the required conditions, configuration settings, practical code examples, and various join scenarios including mismatched partitions and data skew.

BucketingData SkewSQL

0 likes · 15 min read

Eliminating Shuffle in Spark Joins with Storage Partitioned Join (SPJ) for Iceberg Tables

Big Data Technology & Architecture

Dec 1, 2023 · Databases

Understanding Prefix Index, Partitioning, Bucketing, and Flink Integration in Apache Doris

This article explains Doris’s prefix index mechanism, best practices for partitioning and bucketing, and how to correctly use Flink’s batch writes with sequence columns to ensure ordered updates, providing practical guidance for optimizing OLAP workloads in Apache Doris.

Apache DorisBucketingFlink

0 likes · 6 min read

Understanding Prefix Index, Partitioning, Bucketing, and Flink Integration in Apache Doris

Architects Research Society

Apr 15, 2023 · Databases

Cassandra Time‑Series Data Modeling at Massive Scale Using Bucketing

This article explains how to model massive time‑series data in Cassandra by using bucketing techniques to control partition size, avoid hotspots, and improve write and read performance, including practical CQL schema examples and Python code for concurrent queries.

BucketingCQLCassandra

0 likes · 13 min read

Cassandra Time‑Series Data Modeling at Massive Scale Using Bucketing

StarRing Big Data Open Lab

Mar 3, 2017 · Big Data

Boost ETL Performance: Key Tips for Resources, Partitioning & Monitoring

Effective ETL optimization is crucial for data warehouse construction, and this guide outlines three core strategies—ensuring proper resource configuration, leveraging data characteristics for optimal partitioning and bucketing, and monitoring task execution—providing practical principles, pitfalls, and case studies to maximize ETL efficiency.

BucketingETLTask Monitoring

0 likes · 11 min read

Boost ETL Performance: Key Tips for Resources, Partitioning & Monitoring