第一章 阿里大数据产品体系

1 篇文章 0 订阅
订阅专栏

1.大数据基础知识

什么是数据分析?

数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程。

数据分析流程:需求分析明确目标➡️数据收集加工处理➡️数据分析数据展现➡️分析报告提炼价值

什么是数据仓库?

数据仓库是一个面向主题的(subject oriented)、集成的(integrated)、非易失的(non- volatile)、时变的(time variant)数据集合,用于支持管理决策。

  • 面向主题:数据仓库中的数据是按照主题来组织的;
  • 集成:一个数据仓库的数据源可以来源于不同的业务系统;
  • 非易失的:数据到达数据仓库一般不会被改变,即数据仓库对外一般支持查询,不支持修改等;
  • 时变:数据仓库中的数据随时间不断变化;

数据仓库解决的问题

  1. 为业务部门提供准确及时的报表;
  2. 为管理人员提供更强的分析能力,如OLAP(联机分析处理)技术;
  3. 为数据挖掘和知识发现奠定基础;

什么是大数据?

大数据,指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的四个特征

  • 体量极大(volume)
  • 种类繁多(variety)
  • 价值密度低(value)
  • 处理速度快(velocity)

云计算与大数据的关系

云计算提供存储与计算的基础设施,大数据则是运行在其上的应用。

大数据的处理思路

减治:将问题化简成一个更简单的能处理的问题
分治:将问题拆分成多个可以简单求解的小问题

大数据计算技术三种计算场景

  • 离线,定时发生,批量处理,实时性差;
  • 在线,用户操作触发,频繁交互,快速响应;
  • 流式:消息触发,逐条处理;

大数据应用常见场景

  • 数据仓库:通过搭建数据仓库,实现传统的数据分析;
  • 智能算法:通过智能算法,实现语音,图像,文本分析处理等;
  • 大数据应用:将成熟的解决方案应用到系统中;
  • 数据可视化:通过大屏数据展现;

2.大数据产品体系

在这里插入图片描述

阿里云大数据服务基础产品介绍

云数据库——ApsaraDB for RDS(简称RDS)

  • 稳定可靠、可弹性伸缩的在线数据库服务;
  • 即开即用,DMS可视化界面;
  • 兼容MySQL、SQLServer,PG等关系型数据库;
  • 提供数据库的在线扩容(降配需要停机)、备份回滚、性能监控及分析等功能;
  • 支持只读实例和临时实例

优势:秒级切换,服务可用性达99.95%;防攻击,SQL注入告警,数据多重备份;一键式数据迁移,可视化管理操作。

分布式关系型数据库(简称DRDS)

  • 基于RDS的分布式数据存储和检索产品;
  • 水平拆分,可平滑扩容;
  • 解决用户单RDS无法支撑业务的苦难;
  • 降低用户使用分布式数据库的难度;

优势:兼容MySQL(交互协议、SQL),共享阿里TDDL、CORBA组件,水平拆分,容量达单节点百倍,增减节点对应用几乎无影响,高效数据迁移。

表格存储(简称TS)

  • 构建在阿里云飞天分布式系统之上的NoSQL数据存储服务;
  • 海量结构化数据的存储和实时访问;
  • 弹性资源预留;
  • 实时监控显示;

优势:自动故障检测与恢复,系统可用性99.9%,用户级别的数据隔离、访问控制和权限管理,数据冗余备份,单表百TB级别数据存储,毫秒级别单行读写延迟,十万级别QPS。

分析型数据库——Analytic DB

  • 海量数据实时高并发在线分析云计算服务
  • 自由的计算和查询能力
  • 高可用性和高安全性
  • 全面兼容MySQL协议

优势:通过SQL灵活进行多维分析、数据透视、数据筛选等,毫秒级的千亿数据透视,毫秒级的大表关联计算,高性能自动索引、海量数据的极速导出,标准SQL,内置多种云产品的数据输入/输出。

大数据计算服务——MaxCompute(原ODPS)

  • 针对TB/PB级数据的分布式处理能力(实时性要求不高)
  • 大数据运算能力以支撑大数据挖掘应用
  • 开箱即用
  • 数据安全

优势:分布式集群架构,可灵活扩展;自动存储容错机制,所有计算在沙箱中进行;全面支持基于SQL的数据处理,提供标准API,高并发高吞吐量的数据上传下载;灵活的数据访问控制策略。

数据集成
数据集成是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台,为阿里云大数据计算引擎提供的离线(批量)数据进出通道。

优势:

  • 多:支持数据源种类多,多样数据通道,齐全的数据传输方式,丰富的数据处理插件;
  • 快:高效的调用方式,强劲的传输速度,强大的吞吐力;
  • 好:健壮的传输通道,智能的错误检测,自动的传输恢复;
  • 省:开箱即用,动态分配,弹性伸展,按需申请,按量付费;

对象存储(简称OSS)

  • 提供海量、安全、低成本、高可靠的云存储服务;
  • 即开即用,无限大空间的存储集群;
  • 通过API/SDK接口或OSS迁移工具方便将海量数据移入或移除;
  • 存储对象操作具有原子性,强一致性;

优势:服务可用性99.99%,数据持久性99.999999999%(9个9),多重备份,规模自动扩展;用户级别的资源隔离,异地容灾,企业级多层安全防护,多种授权机制;多线GBP骨干网络,无带宽限制,上行流量免费;图片处理、音视频转码、内容加速分发、鉴黄服务,归档服务等。

大数据开发平台(阿里云数加平台)

阿里云数据产品均集成在数加平台,阿里云公共云数加平台的定位:

  • 一站式数据平台(集成包括从基础数据分析应用到大数据开发、调度、运维,到机器学习等);
  • 提供三层服务(底层计算、数据平台分析工具、应用层服务)
  • 行业解决方案

DataWorks(原Data IDE)
数据工场DataWorks(原大数据开发套件Data IDE)是基于MaxCompute作为计算和存储引擎的用于工作流可视化开发和托管调度运维的海量数据离线加工分析平台。

优势:阿里多年DW/BI经验沉淀,全链路解决方案,高效率低成本;集成式组件服务,多种异构数据源支持,多人协同代码开发,完善的版本管理,分钟、小时级调度、拖拽式数据分析与可视化算法建模;完美融合Max Compute,支持十万级任务的有序运行及管理。

Quick BI
提供海量数据实时在线分析服务,支持拖拽式操作,提供了丰富的可视化效果,可以轻松自如地完成数据分析,业务数据探查,报表制作等工作。

优势:拖拽操作,简单易用;多样的解决方案,丰富的展现手段;数据分析,数据处理能力强大

机器学习PAI

  • 基于MaxCompute、GPU集群,支持MR、MPI、SQL、BSP、SPARK等计算类型;
  • 内置阿里、蚂蚁多年沉淀的分布式算法,支持百亿级数据量训练;
  • WEB界面,通过拖、拉、拽等方式即可完成复杂数据挖掘流程;

优势:提供从数据预处理到模型评估的一站式平台服务,显著降低大数据算法建模门槛;支持自定义算法和组件,灵活开放的个性化设置,极大地提高了建模效率;提供丰富的分布式算法,提高模型精度,助力海量数据中挖掘出业务价值。

3.大数据产品典型应用场景

应用场景1-从业务系统到数据分析

云数据库RDS搭配大数据计算服务MaxCompute,实现对大数据的分布式分析处理,适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在RDS与ODPS间的同步,简化数据操作流程。
在这里插入图片描述

应用案例:某云电商网站通过公众号销售商品,数据存入RDS业务数据库,每天将销售记录通过数据集成同步到MaxCompute(企业自己的数据仓库),数据在数据仓库系统中经过加工处理后,形成客户画像数据,客户画像数据再返回到RDS业务库,实现客户商品推荐。

应用场景2-传统企业BI应用

作为传统企业数据上云后的BI引擎,分析型数据库在提供极快速的ROLAP解决方案之外,还提供对传统的BI报表工具的天然兼容性,减少企业迁移和采购成本。
在这里插入图片描述

应用案例:某运输公司将业务系统数据库中的运单数据直接通过数据集成,在分析数据库中进行实时多维分析,并形成固定的报表通过Quick BI形成报表门户,替代原来的直接在业务系统中进行多维分析的功能,实现频繁交互和分析的内部BI系统。

应用场景3-探索式分析

分析型数据库可以作为大数据时代的CRM、DMP(达摩盘)、报表型数据产品等数据SaaS的最佳引擎,支撑数据量不断增长的情况下数据产品的稳定运行和良好的用户体验。
在这里插入图片描述

应用案例:阿里的DMP即通过MaxCompute将多方数据进行整合,通过分析型数据库对客户数据进行分析,对人群进行分类细分,结合商家圈定的目标消费人群,指导商家进行商品投放,商品推荐。

应用场景4-商业智能分析

通常情况下,MaxCompute可以与ECS,ADB/RDS以及其他BI报表工具等配合使用,完成用户BI分析的需求。
在这里插入图片描述

应用案例:某企业以MaxCompute为核心搭建自己的数据中心系统,将企业生产数据,管理数据,财务数据全部通过数据中心统一处理,通过开发平台,数据集成结合Quick BI生成日常运营所需各类统计报表,结合分析型数据库实现多维分析指导企业生产、运营,战略决策。

应用场景5-线上线下混合应用

复杂的离线分析在MaxCompute中完成,将生成的结果同步到(D)RDS、分析型数据库或者表格存储中,供线上应用的即时访问。
在这里插入图片描述

应用案例:某电商企业通过大数据计算服务处理客户标签,到目前为止形成的客户标签超过400多个,客户记录数据超过几千万;客户标签形成后,基于客户标签生成结果再结合其他数据进行分析处理,指导商品营销、客户关怀等业务;项目初始阶段由于数据量较小,标签也只有几十个,因此形成的结果存放在云数据库中基本满足需求,随着数据量的指数级增长,性能无法满足需求,目前采用分析型数据库替代原来的云数据库RDS进行多维分析,同时基于客户ID的标签查询业务迁移到表格存储上,以提升应用效率。

4.思考与练习

  1. 回顾一下大数据的特征,思考一下为什么会出现大数据?理解大数据相关知识:什么是分布式?大数据为什么需要分布式存储、分布式计算?数据仓库、数据分析是做什么的?
  2. 回顾阿里云大数据产品体系,了解阿里云产品的特点和优点,包括云数据库RDS,分布式关系型数据库DRDS、表格存储(Table Store) 、分析型数据库(Analytic DB) 、对象存储OSS,初识MaxCompute, DataWorks, QuickBl、数据集成等;用自己的话描述—下这些产品服务都适合什么场景,和你自己熟恶的对应产品相比,又有什么特点和优势?
  3. 思考常见的阿里云产品的应用场景?
  4. 假如你在一家生产企业的销售部门,需要搭建一个销售商品的分析系统,每天需要将分公司的数据[聚到你这里,形成公司总的销售分析结果后供全公司应用(暂不考虑权限)段如用本章节提到的产品,你准备如何搭建一个分析系统?
【阿里云】1.阿里云大数据产品体系
fxflyflyfly的博客
11-04 2597
文章目录阿里云大数据产品体系1.大数据基础知识1.1数据分析1.2数据仓库1.3大数据1.4云计算与大数据1.5大数据基本思路2.大数据产品体系2.1概况2.2公共云数加平台2.3基础产品云数据库——RDS分布式关系型数据库——DRDS表格存储——TS分析型数据库——ADB大数据计算服务——MaxCompute数据集成对象存储阿里云数加平台大数据开发平台——DataWorksqiuck BI机器学...
数据产品-指标体系和埋点设计
古月_MonBir
09-09 1961
在整个数据链路过程中,数据的获取是链路源头,而其中埋点就是最为常见的数据源头之一,其数据之丰富,量级之庞大,灵活且多变。因此,对数据埋点的精确设计和高效采集可以说是每个希望通过数据驱动增长的公司所需重点关注的。源头数据有问题,一切的后续动作只会是空中楼阁。本篇文章讲分享自己在了解神策的数据埋点之后,对数据埋点设计过程中的一些关键点的思考和理解 一、数据采集前的说明 1、用数据的方式描述用户行为 事件模型(Event 模型):事件模型包括事件(Event)和用户(User)两个核心实体,其中事件的设计是能.
【赵渝强老师】阿里云大数据ACP认证之阿里大数据产品体系
赵强老师CSDN博客主页
02-23 1218
阿里大数据产品体系是基于阿里云飞天平台上的数据处理服务。主要分为阿里云大数据基础产品和阿里云数加平台,其产品架构图如下所示: 一、阿里云大数据基础产品 1、云数据库——RDS(ApsaraDB for RDS的简称) 稳定可靠、可弹性伸缩的在线数据库服务 即开即用,DMS可视化界面 兼容MySQL,SQL server,PG等关系型数据库 提供数据库在线扩容,备份回滚,性能监控及分析等功能 只读实例和临时实例 优势: 双机热备——秒级切换,服务可用性达99.5% 安全防护——防DDOS攻击,SQL.
阿里云及产品体系介绍
08-02
阿里云文档
“阿里巴巴大数据系统体系”学习笔记-纲领篇
weixin_33981932的博客
08-15 173
“你是做什么的?” “数据产品经理”看到对方一脸懵逼之后,再补充一句“大数据相关的工作” “哦~,高大上,不懂” 过去5年,“大数据”是最火的一个概念,被纷繁解读。在我看来,数据跟石油、煤炭一样是一种资源。这种资源其实很早之前就被发现、被应用。只不过因为互联网的发展,数据这种资源呈现出了“爆炸式”的增长,而人们也发现了它巨大的潜在价值;预计到2020年...
》技术应用:大数据产品体系
Lycos
02-07 316
前言 1、网易易数 官方地址:https://bigdata.163yun.com/ 解决方案 新零售行业解决方案 新金融行业解决方案 新教育行业解决方案 新媒体行业解决方案 新农业行业解决方案 新工业制造解决方案 易数大数据分析以及可视化产品 易数大数据分析以及应用场景 2、 ...
第二章电子商务模式.pptx
12-06
一个成功的商业模式应遵循客户价值最大化、持续盈利、资源整合、创新、融资有效性、高效组织管理、风险控制和合理避税八大核心原则。 以红领集团的3D打印智能化工厂为例,红领模式是互联网工业化定制的典范,其核心...
抗震救灾大数据应急指挥平台建设方案.doc
04-15
应急指挥流程......................................................................................................................................................................................35第五章...
《互联网金融》教学课件第二章互联网金融与传统金融.pptx
11-02
《互联网金融》教学课件第二章主要探讨了互联网金融与传统金融之间的差异、合作以及互联网金融对普惠金融体系的支撑作用。以下是对这些知识点的详细阐述: **互联网金融的基本概念** 互联网金融是一种新型的金融...
Storm实战:构建大数据实时计算
01-05
 《Storm实战:构建大数据实时计算》是一本系统并且具有实践指导意义的Storm工具书和参考书,对Storm整个技术体系进行了全面的讲解,不仅包括对基本概念、特性的介绍,也涵盖了一些原理说明。  实战性很强,各章节...
京东大数据产品体系-王威PPT介绍
09-16
偶尔看到的京东大数据产品体系-王威PPT的相关介绍,可以从简单层面了解京东云大数据系统的构建来源 。
阿里大数据产品V.1.0[1].pptx
05-23
阿里大数据产品V.1.0[1].pptx
阿里云大数据产品详细介绍
08-13
阿里云大数据产品详细介绍
【推荐】最强大数据学习与最佳实践资料合集(基础+架构+数仓+治理+案例)(100份).zip
10-18
第12章元数据管理-DAMA-DMBOK:数据管理知识体系 权限管理设计方案 数据安全模板-访问权限梳理表 数据治理服务解决方案 数据治理及数据资产化创新实践-京东 万振龙:数据治理与大数据平台设计 主数据管理实践白皮书...
数据产品设计专题(3)-数据运营方法体系框架
weixin_34319999的博客
08-05 178
一、数据化运营方法体系: (1)核心理念:       a.横向数据整合-实现跨部门、跨体系、跨公司的数据打通;       b.纵向价值链打通:实现数据信息化(构建元数据管理系统)、信息知识化(构建数据血缘关系和知识分享平台)、知识智慧化(设计领域分析模型);   (2)指导思想:       a.用户思维-与一线销售/咨询紧密配合获取真实用户业务需求,以用户为中心;       b.痛点思维-...
阿里系大数据产品
weixin_41227335的博客
05-15 2241
1. MaxCompute(ODPS) 相当于Hadoop + Hive,是一个数据仓库解决方案 0.PB、TB、EB级别完全托管的数据仓库解决方案 1.也有内部表、外部表 2.也有分区表。 3.也有UDF函数,需依赖Resource来完成 4.支持Spark,Streaming暂不支持,Spark能运行在阿里的调度平台Cupid上。使用Spark引擎运行作业 2.DataWorks...
阿里云HBase产品体系架构及特性解析
weixin_40581617的博客
01-11 1005
2017云栖大会HBase专场,阿里云高级技术专家封神带来阿里云HBase产品体系架构及特性解析。本文主要从HBase在大数据中的价值谈起,进而介绍了产品架构和产品特性,接着分享了应用场景和后续计划。 以下是精彩内容整理: 在阿里已经有12000多台在跑HBase,为什么会有这样的规模?接下来让我们一起来看看HBase产品体系架构及特性。 我们发现客户有各种不同的要求,把单独HBase拿过来
数据产品_数据中台04_数仓产品体系
andakiwukawa的博客
09-15 312
数仓和数据库的关系 hadoop生态环境 回归到数仓 和数据库 数仓不管是数仓模型还是数仓理论其实是数据分类管理的方法论。对数据划分管理的方法论。 是建立在hadoop之上的,hadoop是数仓的底层技术实现。 数据库 数据存储介质。 数据仓库的一定要建立在基于Hadoop的技术架构上吗?只要是能存储数据的介质都可以。 数仓作用场景 数仓的核心作用 冗余数据 和 降低数据冗余,看似很矛盾实际站在不同角度。 冗余数据(站在中间层的角度) 核心是快速使用:比如小明分析的过.
大数据产品功能介绍
AntKengElephant的博客
06-03 2124
Hadoop实现了一个分布式文件系统,(Hadoop Distributed FileSystem)简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(stre...
阿里大数据acp 题库
最新发布
07-06
阿里大数据ACP题库是阿里巴巴公司推出的一套专业的数据分析和大数据技术题库。ACP全称是Alibaba Certified Professional,是阿里巴巴公司颁发的一种认证,用于验证专业人士在数据分析和大数据技术领域的知识和能力。 阿里大数据ACP题库覆盖了大数据处理、数据分析、数据仓库、数据挖掘等多个领域的知识。题库包括了理论题、实操题、案例分析等多种形式,通过解答这些题目可以帮助学习者深入理解相关的知识和技术,并提升实际操作能力。 ACP题库的内容丰富全面,注重实践应用。题目从基础入手,逐步深入,涵盖了大数据技术栈中的各个环节和工具,例如Hadoop、Spark、Hive、Flink等。学习者可以通过学习ACP题库,系统学习和掌握大数据处理和数据分析的核心知识,了解大数据技术的最新发展和应用场景。 阿里大数据ACP题库的优点在于由阿里巴巴公司进行维护和更新,准确反映了业界最新的技术趋势和应用场景。通过学习和掌握ACP题库中的知识,可以提升个人在数据分析和大数据技术领域的竞争力,为自己的职业发展铺平道路。同时,通过阿里大数据ACP认证,也可以证明自己在这一领域的专业水平,为就业提供有力支持。 总的来说,阿里大数据ACP题库是一个有益于数据分析和大数据技术学习的权威资源,通过学习ACP题库中的知识,可以帮助人们提升数据分析和大数据技术的能力,增加就业竞争力,促进自身的职业发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • EXCEL——向上、向下自动填充数据 22996
  • 品牌数据银行分析师考试通关指南 4188
  • 第一章 阿里大数据产品体系 3110

分类专栏

  • 数据分析师 1篇
  • EXCEL之王 1篇
  • 大数据工程师 1篇

最新评论

  • 第一章 阿里大数据产品体系

    不正经的kimol君: 大佬就是大佬,写得很棒呀

大家在看

  • OpenStack Yoga版安装笔记(二)环境安装
  • 第十八届全国大学生智能汽车竞赛技术报告 526
  • 方法的使用 85
  • java基于ssm+jsp 人事管理系统 805
  • 多输入多输出 | Matlab实现ABC-CNN人工蜂群算法优化卷积神经网络多输入多输出预测

最新文章

  • EXCEL——向上、向下自动填充数据
  • 品牌数据银行分析师考试通关指南
2021年3篇

目录

目录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码大浪网站设计模板福田网站制作荷坳设计公司网站横岗建站光明网站制作设计深圳外贸网站建设观澜seo优化南联网页设计双龙企业网站改版双龙关键词排名包年推广坪地网站改版荷坳营销型网站建设横岗企业网站设计木棉湾优秀网站设计坑梓企业网站建设宝安优秀网站设计南澳SEO按天扣费东莞百搜词包龙华SEO按天扣费坪地网站开发观澜网站搜索优化广州模板网站建设同乐英文网站建设吉祥SEO按天收费塘坑seo网站推广福永网站设计模板布吉设计网站永湖网站优化推广东莞网站设计坂田网络广告推广歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化