备案 控制台
开发者社区 大数据与机器学习 开源大数据平台 E-MapReduce 文章 正文

数据湖架构及概念简介

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 本文整理自阿里云开源大数据技术专家陈鑫伟在7月17日阿里云数据湖技术专场交流会的分享。


摘要:本文整理自阿里云开源大数据技术专家陈鑫伟在7月17日阿里云数据湖技术专场交流会的分享。本篇内容主要分为两个部分:

  1. 数据湖演进历程
  2. 云原生数据湖架构


点击查看直播回放


一、数据湖演进历程

什么是数据湖?

幻灯片2.PNG

数据湖概念于 2010 年提出,其目的是解决传统数据仓库和数据集市所面临的两个问题:其一,希望通过统一的元数据存储解决数据集市之间的数据孤岛问题;其二,希望存储原始数据,而非存储数据集市建设过程中经过裁剪后的数据,以避免数据原始信息的丢失。当时,开源的 Hadoop 是数据湖的主要代表。


随着云计算的发展, 2015 年,各个云厂商开始围绕云上的对象存储重新解读和推广数据湖。云上对象存储具有大规模、高可用和低成本的优势,逐步替代了 HDFS 成为云上统一存储的主流选择。云上的对象存储支持结构化、半结构化和非结构化的数据类型,同时以存算分离的架构和更开放的数据访问方式支持多种计算引擎的分析,主要代表有 AWS S3 和阿里云的OSS。


2019年,随着 Databricks 公司和 Uber 公司陆续推出Delta Lake、Hudi 和 Iceberg 数据湖格式,通过在数据湖的原始数据之上再构建一层元数据层、索引层的方式,解决数据湖上数据的可靠性、一致性和性能等问题。同时,流式计算技术如Flink、AI 技术等也开始在数据湖上有了更广泛的应用。


同年,AWS 和阿里云也相继推出了 Data Lake Formation 等数据湖构建和管理的产品,能够帮助用户更快速地构建和管理云上数据湖。数据湖架构的不断演进和成熟也得到了更多客户的关注和选择。


数据湖架构演进

幻灯片3.PNG

早期,用户基本在 IDC 机房里基于服务器或虚拟机建设 Hadoop 集群,主要的存储为 HDFS ,主流的计算引擎为 Hive 和 Spark 等。


随着云计算的发展,很多用户为了解决 IDC 机房在资源扩缩容和运维方面的困难,开始选择在云上构建自己的数据湖平台。可以选择云上提供的大数据构建平台,比如EMR,来帮助快速建设和部署多个集群。


但大部分早期用户选择直接将云下的架构搬到云上,依然以 HDFS为主要的存储,因此 HDFS 的问题依然存在,比如 NameNode 的扩展性问题、稳定性问题;比如计算资源和存储资源的耦合问题等;数据也存储于集群内部,跨集群、跨引擎的数据访问也会存在问题。


而现在更主流的选择是数据湖架构,基于云上对象存储如OSS做统一存储。在存储之上,有一套管控平台进行统一的元数据管理、权限管理、数据的治理。再上层会对接更丰富的计算引擎或计算产品,除了 Hadoop、Hive、Spark 等离线分析引擎,也可以对接流式的引擎比如 Flink,Olap引擎如 ClickHouse、Doris、StarRocks 等。


二、云原生数据湖架构

阿里云数据湖发展历程

幻灯片5.PNG

阿里云在数据湖方向已经经过了很多年的发展。最早期的 OSS 发布于2011年,彼时数据湖的应用场景还很少。直到 2015 年,阿里云发布了云上 EMR 产品,开始将 Hive 和Spark 放至 EMR 集群,再将数据放至OSS,存算分离的架构开始流行。


2018年和 2019 年,阿里云相继推出了数据湖分析DLA和数据湖构建DLF两款专门面向数据湖的产品。 2022 年推出的数据湖存储(OSS-HDFS)以及 EMR Data Lake 集群,数据湖解决方案的产品矩阵逐步形成。


整个历程中,有三个标志性事件:2019年,阿里云发布了 《阿里云云原生数据湖白皮书》,很多业内伙伴都基于这份白皮书开始研究学习和建设自己的数据湖;同年阿里云也打通数据湖和自研的 MaxCompute 云原生数仓,推出了湖仓一体架构; 2022 年,阿里云成为首批通过通信院的云原生数据湖测评认证的企业。


数据湖建设思路及挑战

幻灯片4.PNG

经过多年沉淀,阿里云在数据湖的建设上也积累了一定的经验和思路。我们认为数据湖的建设主要包括四个阶段。


第一阶段:数据入湖。

通过各种各样的入湖方式将数据导入数据湖。入湖方式可以根据自己的业务需求和场景进行选择,比如全量入湖、CDC更新入湖、实时追加写入以及整个 Hadoop 集群搬迁上云等。


第二阶段:数据湖存储与管理。

帮助用户更好地管理发现和高效使用数据湖里的数据。此阶段主要包括以下几个方面:


① 数据目录与检索:一方面能够提供元数据的服务,另一方面能够提供数据的快速检索能力。

② 权限控制与审计:因为数据湖本身是相对开放和松散的体系,需要有比较强的权限管控的能力来保证企业数据的安全性。

③ 数据质量控制:避免数据湖发展成数据沼泽的关键手段。

④ 湖表管理与优化:管理优化数据湖格式。

⑤ 存储管理与优化:对象存储提供了数据冷热分层的特性,但这些特性落地时还需要辅以自动化的手段以进行存储管理优化。


第三阶段:数据处理与分析。

可以根据实际场景选择多种数据处理和分析方式,比如做离线分析、实时计算、交互式分析、AI训练等。


第四阶段:数据服务与应用。

数据湖较为开放,因此可以直接用 BI 系统、可视化系统连接数据湖上的引擎,进行实时分析或可视化的数据展示等。另一方面,数据湖里的数据也可以再进一步同步或 Sink 到更专业的数据系统中,比如到 ES 里进行进一步数据检索,比如到ClickHouse/Doris/StarRocks等做更丰富的多元分析。


阿里云云原生数据湖解决方案

幻灯片6.PNG

经历了多年的摸索后,阿里云推出了一个较为完整的云原生数据湖解决方案,整体架构如上图所示:

底层是存储层:统一存储各类数据,并对外提供文件访问的接口和协议。


第二层是管控层:可以理解为服务化的管控与优化,一方面提供统一的元数据、统一权限管控,另一方面提供智能化数据湖管理、快速数据检索等能力。


第三层是多元的计算与分析层:可以通过很多开源或阿里云自研的分析引擎对湖内数据进行加工和处理。


最上层是数据开发治理层:提供了面向湖和仓完善的数据开发体系以及数据治理平台。

 

由此可见,数据湖的建设不仅仅是大数据相关技术的集成和应用,同时也是一个复杂的系统工程,需要有成熟的方法论以及平台型的基础设施做支撑,才能建设出安全可靠、功能完善、成本可控的企业级数据湖。



了解更多:

[1] 数据湖构建Data Lake Formation: https://www.aliyun.com/product/bigdata/dlf

[2] 开源大数据平台EMR: https://www.aliyun.com/product/emapreduce

[3] 数据湖揭秘—Delta Lake https://developer.aliyun.com/article/909818

[4] 数据湖构建—如何构建湖上统一的数据权限:   https://developer.aliyun.com/article/918403

[5] 关于 Data Lake 的概念、架构与应用场景介绍: https://developer.aliyun.com/article/944650







欢迎钉钉扫码加入数据湖交流群

获取数据湖最新资讯和最佳行业实践~

image.png



相关实践学习
数据湖构建DLF快速入门
本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
扬流
目录
相关文章
球球不吃虾
|
2月前
|
缓存 前端开发 JavaScript
第三章(概念篇) 微前端架构模式
第三章(概念篇) 微前端架构模式
球球不吃虾
58 0
郑小健
|
1月前
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
郑小健
73 5
球球不吃虾
|
2月前
|
缓存 自然语言处理 前端开发
第一章 引言-HTTP协议基础概念和前后端分离架构请求交互概述
第一章 引言-HTTP协议基础概念和前后端分离架构请求交互概述
球球不吃虾
69 0
weixin_836869520
|
23天前
|
Java 数据库连接 Spring
Spring底层架构核心概念总结
Spring底层架构核心概念总结
weixin_836869520
35 4
倔强的石头_
|
24天前
|
存储 算法 C语言
【链表专题】深入探索链表:文章索引与知识架构(链表的概念、实现、应用、经典例题大合集)
【链表专题】深入探索链表:文章索引与知识架构(链表的概念、实现、应用、经典例题大合集)
倔强的石头_
24 1
杰哥在此
|
9天前
|
监控 Java API
Java面试题:解释微服务架构的概念及其优缺点,讨论微服务拆分的原则。
Java面试题:解释微服务架构的概念及其优缺点,讨论微服务拆分的原则。
杰哥在此
11 0
1941623231718325
|
1月前
|
监控 持续交付 API
微服务架构:从概念到实践
【6月更文挑战第10天】微服务架构将大型应用拆分为独立小服务,每个服务运行在独立进程中,通过轻量级通信协作。其特点是模块化、可伸缩、灵活且容错性好。优势包括提高开发效率、降低系统复杂性、便于技术选型和提升系统可用性。实践中,涉及业务拆分、服务通信、治理、自动化部署及数据一致性管理。这种架构模式为企业应对复杂业务需求提供了有效解决方案。
1941623231718325
30 1
让线程再跑一会
|
1月前
|
消息中间件 数据采集 分布式计算
离线数仓(一)【数仓概念、需求架构】
离线数仓(一)【数仓概念、需求架构】
让线程再跑一会
73 0
小竹笋
|
28天前
|
存储 消息中间件 数据库
分布式系统详解--架构简介(微服务)
分布式系统详解--架构简介(微服务)
小竹笋
30 0
达达达达达达
|
1月前
|
存储 小程序 云计算
云计算概念与架构设计介绍
云计算概念与架构设计介绍
达达达达达达
87 0
大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

  • 1
    JindoFS概述:云原生的大数据计算存储分离方案
  • 2
    助力云上开源生态 - 阿里云开源大数据平台的发展
  • 3
    开源生态的新发展:Apache Spark 3.0、Koala和Delta Lake
  • 4
    如何在E-MapReduce中玩转OSS
  • 5
    Spark中的资源调度
  • 6
    欢迎加入Spark中国社区
  • 7
    为什么选择ali-E-MapReduce
  • 8
    开源大数据周刊-第13期
  • 9
    1.58元/小时起快速体验 Hadoop & Spark ,为你助力大数据计算
  • 10
    【转】Spark 2.0 技术预览版:更简单、更快速、更智
  • 1
    迟来的EMR Serverless Spark评测报告
    27
  • 2
    DataWorks操作报错合集之在处理元数据存储时发生报错:ODPS-0010000,该如何处理
    17
  • 3
    EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务
    71
  • 4
    【报名中】阿里云 x StarRocks:极速湖仓第二季—上海站
    68
  • 5
    阿里云 EMR Serverless StarRocks OLAP 数据分析场景解析
    131
  • 6
    E-MapReduce Serverless Spark体验评测
    143
  • 7
    EMR Serverless Spark 实践教程 | 通过 EMR Serverless Spark 提交 PySpark 流任务
    95
  • 8
    【综合能源】含氢气氨气综合能源系统优化调度【免费】
    39
  • 9
    深度分析:Apache Kafka及其在大数据处理中的应用
    99
  • 10
    阿里云 EMR StarRocks VS 开源版本功能差异介绍
    174
  • 相关课程

    更多
  • Serverless 函数计算架构
  • 架构的演进
  • MySQL企业常见架构与调优经验分享
  • 企业Web常用架构LAMP-LNMP实战
  • 企业级互联网分布式系统应用架构学习
  • 高校精品课-上海交通大学 -企业级应用体系架构
  • 相关电子书

    更多
  • 阿里云卓越架构白皮书_导读版
  • 微服务×容器Meetup:云原生架构与应用专场PPT合辑
  • 云原生架构容器&微服务优秀案例集
  • 相关实验场景

    更多
  • 数据湖构建DLF快速入门
  • 库仓一体实时数据分析
  • 基于Serverless架构的盲盒抽奖系统
  • 零基础部署一个Django Blog到Serverless架构
  • 使用EDA架构部署在线外卖订单系统
  • 手把手教你把IoT传感器数据存储到数据库
  • 下一篇
    通义千问API入门教程

    PHP网站源码荷坳外贸网站设计丹竹头外贸网站设计坪地高端网站设计福永设计公司网站东莞百搜标王平湖网站推广工具布吉企业网站制作大芬关键词排名包年推广木棉湾外贸网站设计观澜网站推广方案南澳SEO按天收费盐田品牌网站设计同乐网站优化按天收费南联网站设计龙岗网站优化按天计费布吉网站开发宝安企业网站改版盐田百搜标王坪山网页设计深圳百姓网标王福田百度网站优化排名丹竹头外贸网站制作坪地阿里店铺托管深圳网站优化按天计费东莞网页制作罗湖网站建设坪山阿里店铺运营观澜网站建设设计永湖企业网站设计盐田关键词按天扣费歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

    PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化