备案 控制台
开发者社区 大数据 文章 正文

阿里十年经验输出,大数据平台“数加”的前世今生

简介: 阿里云大数据业务资深专家张金银和王峰在 “云栖大会上海峰会”的深度分享。核心是从历史发展的角度解读集阿里巴巴十年的大数据能力以及上万名工程师实战检验于一身,覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条的阿里云一站式大数据平台“数加”。

2016 年1月20日,在云栖大会上阿里云发布了一站式大数据平台“数加”,该平台集合了阿里巴巴十年的大数据能力以及上万名工程师实战检验,该平台是一站式的解决方案,首批亮相20款产品,覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。


数加平台由大数据计算服务(MaxCompute)、分析型数据库(Analytic DB)、流计算(StreamCompute)共同组成了底层强大的计算引擎,速度更快、成本更低。计算引擎之上,“数加”提供了丰富的云端数据开发套件,包括数据集成、数据开发、调度系统、数据管理、运维视屏、数据质量、任务监控等在内。


“数加”还向有数据开发能力的团队开放,这些团队可入驻“数加”,借助数加上的工具为各行各业提供数据服务。大数据开发套件的优势包括:支持100人以上协同设计、开发、运维;具有良好的扩展性;提供各个产品功能模块的Open API,可二次开发;多个数据实例之间的数据授权机制,确保数据只能使用却不可见;提供白屏化的运维能力,以及字段级数据质量监控、机器预警、资源使用率监控等功能,让用户更好的掌控自己的数据及数据任务。

6小时处理100PB数据、Analytic DB支持百亿量级多维查询只需100毫秒

大数据计算服务可6小时处理100PB数据,相当于1亿部高清电影。单集群规模过万台,并支持多集群联合计算。做到了速度更快,成本更低。经测算,自建Hadoop集群的成本是数加的1.5倍,国外计算厂商AWS 的EMR成本更是数加的5倍。


此次发布的产品还覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。具体来看:

  • 数据采集方面:Datahub可为用户提供实时数据的发布和订阅功能;
  • 底层计算引擎:由大数据计算服务MaxCompute(原ODPS)、分析型数据库Analytic DB、流计算StreamCompute共同组成。

  1. 大数据计算服务可6小时处理100PB数据,相当于1亿部高清电影;单集群规模过万台,并支持多集群联合计算。做到了速度更快,成本更低;
  2. 分析型数据库Analytic DB可实现对数据的实时多维分析,百亿量级多维查询只需100毫秒;
  3. 流计算StreamCompute对实时流式数据进行分析,具有低延时、高性能的特点。每秒查询率可以达到千万级,日均处理万亿条消息、PB量级的数据。

  • 数据分析方面:

  1. Mobile Analytics 让开发者可快速搭建日志采集、分析系统,从而为用户提供个性化服务;
  2. DataV 通过数加BI报表产品,3分钟即可完成海量数据的分析报告。产品支持多种云数据源,提供近20种可视化效果;
  3. 通过数据可视化产品DataV,一星期就能做出双11同款大屏;
  4. 基于DataV,数加还发布了面向政府的行业应用产品“郡县图治”:通过这款产品,县长可以在一个屏幕下统览全县各项经济民生数据,为政府决策提供辅助。

  • 机器学习方面:

  1. 可基于海量数据实现对用户行为、行业走势、天气、交通等的预测;
  2. 图形化编程让用户无需编码、只需用鼠标拖拽标准化组件即可完成开发;
  3. 产品还集成了阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等
  4. 提供了全面支持,包括规则引擎、推荐引擎、文字识别、智能语音交互等;比如规则引擎是一款用于解决业务规则频繁变化的在线服务,可通过简单组合预定义的条件因子编写业务规则,并做出业务决策。而文字识别提供自然场景下拍摄的图片中英文文字检测、识别以及常见的证件类检测和识别。智能语音交互基于语音和自然语言技术构建的在线服务,为智能手机,智能电视以及物联网等产品提供“能听、会说、懂你”式的智能人机交互体验。


daf3d8d4df5bf9da81d1c1627e17f41f39dabbdd

阿里云的大数据平台数加的整体架构

二、追溯数加平台的前世今生

1. 数加平台的起源

6500459991be45b782b94a9d8caee516f9985c7b

第一个数据仓库——阿里大数据分析的雏形


在2004年5月,为了从大数据中分析当前状况,并预测未来的趋势,出现了第一个大数据仓库;到2008年,淘宝的业务量与数据量已达到04年的数千倍,按照这样的趋势,不出几年IOE的成本就会将公司拖到破产。鉴于Oracle的性能已经不足以支撑新的业务量,底层技术架构亟需升级。到2009年,新的数据公司成立。

2. 阿里云和阿里金融的诞生

当时,整个服务器与全部信息四处分散,整个数仓的逻辑是以很多脚本拼凑而成。由于其中的逻辑过于复杂,一旦系统出错,只有专人才能解决。彼时还存在诸多问题,包括:服务器利用率低、信息孤岛、数据冗余、基础建设一穷二白,而且由于云计算技术还是新兴技术,存在着安全隐患。

为了解决这些问题,阿里决定成立阿里云,从底层重构云计算及大数据技术。同时,为了实现自主可控,阿里金融成立。

阿里金融的成立意义重大,整个管理层从中真正看到了数据公司的雏形。总结来说,在这样的公司中:数据是它的生产资料;只有把这些数据集中融合,才能产生这种业务。

aa976b1e8dca43277ba1116b78ced95edff9aa2f

只有集中融合数据,才能产生这种业务

不过随着时间推移,到2010年,虽然大家承认这种模式很好,但实际上还存在着严重的问题:一是在生产资料方面:如何集中和打通这些数据,实际上历史数据是很欠缺的。之前大家并没有这方面的意识,因此没有保留历史数据,变更都是直接替换。二是在生产工具方面:阿里系统需要大量的计算,那么如何解决大规模计算问题?

三、大数据计算服务(ODPS)进化史

b814a77b4472e5a3c7923a2313da15d8131ca3ce

原ODPS,现MAXCOMPUTE的进化史


由于诸多问题,数据应用急需改革与整合:信息重复存储、标准不一,存在很多小集群,基础建设每年需投入几十亿;而且每一块业务都可能需要淘宝的内部表,因而研发成本较高;同时信息获取时间较长,一个数据需要等半年;另外搜索数据也很困难。

1. 数据平台部成立

最终,在2012年数据平台部(CDO)成立,具体执行的工作可以总结为三个词:存、通、用。“存”将数据大集中,存入ODPS;“通”:统一规范,打通各个业务单位;“用”:推动数据开放和交换,促发展,养生态。

799b9eefb92c6e6afdc77f427af7a62c96743002

一切业务数据化,一切数据业务化

2. 成立ODPS

2012年,我们还计划将集团内部几十个小集群进行统一,这个任务又称登月计划到了2013年,我们决定将整个集团的业务集中在一个平台上,不仅是阿里系统可以使用,其他业务也能使用。因此我们将原本的数据仓库改名为大数据计算服务(ODPS),并将所有金融业务所需要的数据放在云端,集中到ODPS上。

3. 大数据基础设施成熟,开始创业

2015年,大数据基础设施成熟,既然阿里在数据方面有这么多的经验,有这么多的能力,我们想要将这样的能力分享给其他创业者,让普惠大数据成为现实。所谓的“普惠大数据”这个概念,可以简单表述为:让大数据为人人可用;大家用得起、用的快,用的好;生态化,要和服务商共享三年,共享一万亿的计划。

4.  数加平台推出:

此时的问题在于产品化不足:如何将这个平台商业化,将内部使用的产品调整成公共平台;产品独立部署的问题:平台与之前内部系统联系紧密,需要剥离;需要适应具体客户的需求。

最终确定了下面的解决办法:将整个平台拆小,拆分成不同功能的模块;将产品从原有系统中剥离出来;3)既然阿里擅长平台,我们先把平台做好,再与所有行业伙伴一同合作。

直到2016年1月,数加平台支持对外服务。


2f8926d5e026d059952983d786dd3aefe8f9d16f

数加平台支持对外服务

四、数加平台提供的服务

1. 如何为客户提供服务

简单来讲有以下三点,首先是回归商业本质:每笔业务有相应的费用;其次是解决业务问题:有专门的咨询团队,必要时可以与客户面对面沟通来协同客户开发;最后,拓展自己的商业边界:从已有数据总结,发现新的商业机会。

2. 具体业务问题的解决

在缺乏精准化运营的情况下,公司在决策时只能靠猜或者靠蒙。为了解决这个问题,首先需要树立指标。

  • 例如在叫车场景中:司机和乘客两端,乘客是降低等待时长,司机是降低空驶率,需要优化这两个指标。另外,不能盲目在中间流程加内容。

从微创型小点出发,从旁路来做优化设计,这就是典型的旁路设计。比如司机现在有个单子,想要不停地接单。设计方式如下,首先是标签:司机在过去二十分钟之内接过单;其次,当前司机手头上定单的终点有人在打车。将其拆成两条规则,把类似的接力单、返程单、交接班单统统用数据描述,这就是典型的用数据进行业务的产品。


  • 例如在商业WIFI公司通过创建O2O营销平台时:首先根据客流和商铺数据挖掘人物对商铺的兴趣图谱、商铺之间的关系网;其次整合标签做多维透视,深度刻画人群画像,为商铺提供分析平台;最后使用定向运营为商铺提活动定向,精准触达目标客户。

这样一来,通过强大的分析引擎,我们支撑了分析平台的功能研发,并实现了精准定向实现用户准确触达。


3. 关于数据可视化

针对不同角色,所需要设计的内容也不同,而且要具有启发式,利于公司领导者进行决策。

五、未来展望

“技术是没有门派的,服务也是没有边界的。任何的技术的诞生都是源于最终用户的需求和服务。”当阿里云与九州云、润和软件、创客+、国家气象局、NVIDIA签署战略合作时,阿里云资深总监李津这样说道。

通过技术融合服务于用户,这是整个数加平台真正的生态价值所在,也是未来云技术的发展趋势。

大数据在各行各业都发挥着自己的作用,包括水利、气象以及未来的海洋、地震、国土等重大基础资源管理的行业和部门;还有交通、娱乐、物流、健康等创新型行业;也包含人机交互、全渠道CRM等计算机相关领域。

有了这样的生态和阿里云的数加大平台在一起,阿里云计划用3年时间吸引1000家合作伙伴入驻,能够通过数加这个平台,能够培养一千位首席数据官,更希望能培养出五万名数据科学家。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
云篆
目录
相关文章
阿里云大数据Al技术
|
10月前
|
弹性计算 分布式计算 大数据
阿里云计算平台大数据基础工程技术论文入选 VLDB 2023
近日,在 VLDB 2023 上,由阿里云计算平台大数据基础工程技术团队主导,与计算平台 MaxCompute 团队、华东师范大学数据科学与工程学院、达摩院合作的论文入选 Industrial Track
阿里云大数据Al技术
441 0
花开富贵111
|
3天前
|
存储 分布式计算 专有云
MaxCompute产品使用问题之阿里公有云的数据如何迁移到阿里专有云
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
花开富贵111
25 10
1175223700484759
|
11月前
|
存储 移动开发 算法
《阿里大数据之路》读书笔记:第二章 日志采集
《阿里大数据之路》读书笔记:第二章 日志采集
1175223700484759
271 0
愿天堂没有BUG(公众号同名)
|
1月前
|
大数据 BI
阿里十年大数据专家谈“云上数据中台之道”含内部PPT
从大数据的概念被正式提出,到马云老师预言人类正从IT时代走向DT时代,大数据浪潮迭起。大数据同仁共同认知的一点是,大数据会对社会创新、产业变革、业务创新及每个人的角色定位产生近乎决定性的影响。
愿天堂没有BUG(公众号同名)
157 0
1175223700484759
|
11月前
|
数据采集 存储 消息中间件
《阿里大数据之路》读书笔记:总述
阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。
1175223700484759
554 0
飞云觅宙
|
大数据 数据库
阿里大数据——数据库总结及原文链接
阿里大数据——数据库总结及原文链接自制脑图
飞云觅宙
90 1
阿里大数据——数据库总结及原文链接
auqbllxiu
|
大数据
《阿里云数加大事记——大数据操作系统,七年磨一剑》电子版地址
阿里云数加大事记——大数据操作系统,七年磨一剑
auqbllxiu
62 0
《阿里云数加大事记——大数据操作系统,七年磨一剑》电子版地址
auqbllxiu
|
大数据
《阿里云数加大事记——大数据操作系统,七年磨一剑》电子版地址
阿里云数加大事记——大数据操作系统,七年磨一剑
auqbllxiu
35 0
《阿里云数加大事记——大数据操作系统,七年磨一剑》电子版地址
auqbllxiu
|
大数据 Serverless
《基于阿里云数加平台的大数据Serverless 实践》电子版地址
基于阿里云数加平台的大数据Serverless 实践
auqbllxiu
108 0
《基于阿里云数加平台的大数据Serverless 实践》电子版地址
开发者小助理
|
机器学习/深度学习 存储 人工智能
参营拿好礼! 阿里灵杰“大数据&AI实战派”训练营正式开启
阿里灵杰依托阿里领先的云基础设施、大数据和AI工程能力、场景算法技术和多年行业实践,一站式地为企业和开发者提供云原生的大数据和AI能力体系。
开发者小助理
320 0
参营拿好礼! 阿里灵杰“大数据&AI实战派”训练营正式开启

热门文章

最新文章

  • 1
    Hadoop数据迁移MaxCompute最佳实践
  • 2
    Amazon Redshift数据迁移到MaxCompute
  • 3
    小红书推荐大数据在阿里云上的实践
  • 4
    ARM+麒麟大数据环境搭建:Hive
  • 5
    “云计算和大数据”重点专项2017年度项目安排公示
  • 6
    大数据时代IT或被DT替代
  • 7
    《智能数据时代:企业大数据战略与实战》一1.3 大数据处理的关键——数据类型
  • 8
    微软首席架构师Yaniv Pessach谈微软大数据COSMOS(中文意思是宇宙)
  • 9
    穿透繁荣账单,警惕大数据的“黑魔法”
  • 10
    大数据量导出Excel ---待测试
  • 1
    数据仓库(13)大数据数仓经典最值得阅读书籍推荐
    329
  • 2
    大数据计算MaxCompute等长时间没有查出来结果的原因可能有以下几点:
    36
  • 3
    DataWorks常见问题之dataworks100g大小的csv文件上传到odps失败如何解决
    65
  • 4
    DataWorks报错问题之dataworks同步rds数据到maxcompute时报错如何解决
    37
  • 5
    漫谈大数据时代的个人信息安全(四)——“位所欲为”
    22
  • 6
    漫谈大数据时代的个人信息安全(三)——“点赞之交”
    33
  • 7
    漫谈大数据时代的个人信息安全(二)——“逢脸造戏”
    35
  • 8
    漫谈大数据时代的个人信息安全(一)——“按图索骥”
    40
  • 9
    DataWorks报错问题之DataWorks报错odps-0433121: User is not added in the list - Only users in the operator account white list have permission to do that如何解决
    41
  • 10
    DataWorks常见问题之dataworks弹外申请odps相关权限失败如何解决
    45
  • 相关课程

    更多
  • 大数据Spark2020版(知识精讲与实战演练)第四阶段
  • 2020版大数据实战项目之DMP广告系统(第二阶段)
  • 2020版大数据实战项目之DMP广告系统(第三阶段)
  • 2020版大数据实战项目之DMP广告系统(第四阶段)
  • 2020版大数据实战项目之DMP广告系统(第五阶段)
  • 2020版大数据实战项目之DMP广告系统(第六阶段)
  • 相关电子书

    更多
  • 大数据AI一体化的解读
  • 极氪大数据 Serverless 应用实践
  • 大数据&AI实战派 第2期
  • 相关实验场景

    更多
  • 数据库实验室挑战任务-中级任务
  • 数据库实验室挑战任务-初级任务
  • 函数计算实战-云开发创建视觉AI应用
  • 虎虎生威,挑战云上魔方
  • 基于函数计算一键部署简易论坛
  • 阿里云上云入门
  • 下一篇
    部署LAMP环境(Alibaba Cloud Linux 3)

    PHP网站源码沙井网站优化排名平湖关键词按天收费吉祥外贸网站设计福永seo优化松岗优秀网站设计沙井至尊标王盐田设计公司网站大鹏外贸网站建设南联seo排名光明seo排名宝安网站建设设计西乡阿里店铺托管坪地关键词按天收费双龙seo优化荷坳外贸网站设计罗湖推广网站惠州网站推广方案福永SEO按天收费东莞网站改版观澜至尊标王罗湖优化盐田设计公司网站坑梓优秀网站设计布吉网站设计大浪阿里店铺托管丹竹头SEO按天计费爱联关键词排名包年推广平湖网站推广布吉建网站南联百度关键词包年推广歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

    PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化