From Hadoop to Cloud‑Native: The Evolution of Data Lakes and Modern Architecture
This article traces the history of data lakes from their 2010 inception with Hadoop through cloud‑native object storage, lakehouse formats like Delta Lake, and Alibaba Cloud's multi‑layer solution, outlining key architectural stages and practical construction challenges for enterprise‑grade implementations.
一、数据湖演进历程
什么是数据湖?
数据湖概念于 2010 年提出,旨在通过统一的元数据存储解决数据孤岛问题,并存储原始数据以避免信息丢失,当时的主要实现是开源 Hadoop。
随着云计算发展,2015 年各云厂商围绕对象存储重新定义数据湖,利用对象存储的大规模、高可用、低成本优势,逐步取代 HDFS,支持结构化、半结构化和非结构化数据,并通过存算分离架构兼容多种计算引擎,如 AWS S3 与阿里云 OSS。
2019 年,Databricks 与 Uber 推出 Delta Lake、Hudi、Iceberg 等湖仓格式,在原始数据之上增加元数据层和索引层,提升可靠性、一致性和性能;同时 Flink、AI 等流式计算技术也开始广泛应用于数据湖。
AWS 与阿里云相继推出 Data Lake Formation 等产品,加速云上数据湖的构建与管理,吸引更多客户关注。
数据湖架构演进
早期用户在 IDC 机房部署 Hadoop 集群,使用 HDFS 存储,计算引擎以 Hive、Spark 为主。
随着云计算普及,用户转向云上平台(如 EMR)以解决资源扩缩容和运维难题,但仍面临 HDFS 的扩展性、稳定性及存算耦合等问题。
当前主流架构基于云对象存储(如 OSS)实现统一存储,上层通过管控平台提供元数据、权限和治理,支持离线引擎(Hive、Spark)以及流式引擎(Flink)和 OLAP 引擎(ClickHouse、Doris、StarRocks)。
二、云原生数据湖架构
阿里云数据湖发展历程
阿里云 OSS 于 2011 年发布,2015 年推出云上 EMR,将 Hive、Spark 迁移至 EMR 集群并使用 OSS 存储,实现存算分离。
2018‑2019 年推出数据湖分析 DLA 与数据湖构建 DLF,2022 年推出 OSS‑HDFS 存储和 EMR Data Lake 集群,形成完整产品矩阵。
关键里程碑:2019 年发布《阿里云云原生数据湖白皮书》并推出湖仓一体架构;2022 年通过通信院云原生数据湖测评认证。
数据湖建设思路及挑战
阿里云将数据湖建设划分为四个阶段:
数据入湖 :通过全量、CDC、实时写入或集群搬迁等方式将数据导入湖中。
数据湖存储与管理 :包括数据目录与检索、权限控制与审计、数据质量控制、湖表管理与优化、存储管理与优化。
数据处理与分析 :支持离线分析、实时计算、交互式分析、AI 训练等多种场景。
数据服务与应用 :通过 BI、可视化系统直接访问湖中数据,或将数据同步至 ES、ClickHouse、Doris、StarRocks 等进行更丰富的分析。
阿里云云原生数据湖解决方案
整体架构分为四层:
存储层 :统一存储各类数据并提供文件访问接口。
管控层 :提供统一元数据、权限管控以及智能化管理和快速检索能力。
计算与分析层 :支持多种开源或自研引擎对湖内数据进行加工处理。
数据开发治理层 :构建面向湖和仓的数据开发体系和治理平台。
数据湖的建设是大数据技术的深度集成,需要成熟的方法论和平台型基础设施支撑,才能实现安全可靠、功能完善且成本可控的企业级数据湖。
了解更多:
数据湖构建 Data Lake Formation: https://www.aliyun.com/product/bigdata/dlf
开源大数据平台 EMR: https://www.aliyun.com/product/emapreduce
数据湖揭秘—Delta Lake: https://developer.aliyun.com/article/909818
数据湖构建—如何构建湖上统一的数据权限: https://developer.aliyun.com/article/918403
关于 Data Lake 的概念、架构与应用场景介绍: https://developer.aliyun.com/article/944650
Signed-in readers can open the original source through BestHub's protected redirect.
This article has been distilled and summarized from source material, then republished for learning and reference. If you believe it infringes your rights, please contactand we will review it promptly.
Alibaba Cloud Big Data AI Platform
The Alibaba Cloud Big Data AI Platform builds on Alibaba’s leading cloud infrastructure, big‑data and AI engineering capabilities, scenario algorithms, and extensive industry experience to offer enterprises and developers a one‑stop, cloud‑native big‑data and AI capability suite. It boosts AI development efficiency, enables large‑scale AI deployment across industries, and drives business value.
How this landed with the community
Was this worth your time?
0 Comments
Thoughtful readers leave field notes, pushback, and hard-won operational detail here.
