对数据中台的梳理与思考

31 篇文章 23 订阅
订阅专栏

Gartmer:《数据中台在中国已经接近炒作的顶峰》
PowerData:接近顶峰?那就说明还有上升的空间嘛

本篇文章聊聊数据中台爆火背后的逻辑。

图:数据中台与业务中台

一、概念篇

1、什么是中台

中台是将系统的通用化能力进行打包整合,通过接口的形式赋能到外部系统,从而达到快速支持业务发展的目的。比如业务中台,更多的是对业务的支持,比如客户信息,组织信息、产品信息等,这些都来自某一个系统,且分别支持多个系统的业务。提供给业务中台使用。

从技术角度,中台是为了搭建一个灵活快速应对变化的架构,可以快速实现前端提的需求,避免重复建设,这也是符合敏捷开发理念。

2、什么是数据中台

业界目前对数据中台没有统一的定义,本篇文章仅基于共识给出PowerData的理解。

数据中台并不是一种技术,更多的是数据集成、管理、应用的体系。本质目的在于通过一系列的整合与管理,提供可以复用的数据能力,提升企业数据资产化能力,从而更好的为业务提供数据支撑,实现数据驱动的目标。

二、业内痛点

1、数据孤岛林立,无法有效集成

图:数据孤岛

数据孤岛主要由于公司部门以及业务系统之间的割裂导致难以做到数据的互联互通,各业务的展开无法对数据直接复用和快速迭代。

作为目前数据资产化的首要痛点,也是数据中台需要打通的首要目标,

其带来的问题主要有以下几点:

  1. 信息系统的割裂导致数据的割裂,业务无法复用现有数据,增加开发成本。
  2. 数据标准不统一,各部门间各自定义数据指标与标准,导致合作困难,增加沟通成本。
  3. 业务功能的重复建设导致业务数据重复,造成了数据的冗余、无效、不一致等情况。

2、平台建设周期长,投入成本大

大数据平台作为企业数字化的基础平台,从成本考虑来看,一套完整的平台需要投入大量的人力物力精力去建设,且更多针对数据部门本身的需求来进行建设,缺少全局统筹的思想。

3、数据资产无法有效管理

数据资产化作为近两年数据领域关注的话题,越来越多的被企业所关注。

以往的数据资产管理更多的是依靠人力与手工管理,方式简单粗暴,管理效率低下,甚至许多公司都没有数据资产管理的概念,数仓搭建完成即到此为止。

4、数据复用性低,使用成本高

数据层面的复用仅仅只是数仓ods-dim-dwd-dws-ads之间的分层复用,是完全不够的,数仓分层只是提供了复用的能力,而没有提供复用的便利。

数据应用的过程,数据本身的元数据信息、血缘信息以及指标体系作为理解数据的重要手段,在数仓中或并不能完全体现,同时数仓仅提供了库表数据,应用层需要进行编码读取后才可使用。

三、为什么是数据中台

基于上述痛点,数据中台所包含的概念与内容给我们提供了一些定向的解决思路。

1、数据集成为先,打通数据孤岛

数据集成的意义在于能够通过打通多数据源中的数据,将其汇总到一个数据存储中如数仓/数据湖,为用户提供统一的查询出口,并进行集中处理。

在此过程中需要对数据进行清洗、转换、去重、筛选等操作,确保数据的一致性与规范性。

2、管好才能用好

个人认为,中台最核心的能力就是数据资产管理能力,通过元数据管理、数据血缘、指标体系等一系列手段将数据的关联关系、技术元数据、业务元数据、指标相关信息进行统一展示,并对外赋能业务。同时通过数据质量,将各节点间数据进行监控并提前预警,确保数据的准确性以及可用性。

3、统一数据服务

中台核心目的就是对外提供便捷、准确、高效的数据服务,前期包括数据集成与数据资产管理均为统一的数据服务提供保障。对外服务的主体包括但不限于数仓数据、指标信息、元数据信息。
服务方式包括但不限于:数据接口、SDK开发包、搜索展示平台、数据地图、数据门户等。

统一服务出口的意义主要有以下几点:

  1. 中台内部集成与治理后的数据,对外服务过程中可确保公司层面的数据一致性。
  2. 通过可复用的数据服务出口,为后续应用开发减少了工作量。

四、数据中台的边界

在PowerData社区内部讨论数据中台时,遇到最常见的问题就是:数据中台到底包含哪些内容,即数据中台的边界是什么

首先需要声明一点,数据中台没有标准架构,更多的是企业数据管理应用体系,各个公司对于中台的需求与理解都不近相同,以下内容仅为PowerData总结的中台边界:

  • 数据集成
  • 数据模型管理
  • 数据仓库/数据湖
  • 主数据管理
  • 元数据管理
  • 数据血缘
  • 数据质量
  • 数据生命周期管理
  • 数据安全管理
  • 数据标准管理
  • 统一数据服务

1、数据集成

目前常见的数据集成组件主要包括:离线数据集成、实时(增量)数据集成。

其中离线数据集成主要包括:Sqoop、Datax、Kettle、SeaTunnel【首个国产开源数据集成组件】等

实时(增量)数据集成主要包括:Flink CDC、Canal、Maxwell、Debezium等

数据中台可以自行开发或结合上述组件,对各异构数据源进行集成。

2、数据模型管理

图:菜鸟数仓建模平台

1)数据模型概述

数据模型能够直观地表达业务逻辑,能够使用实体、属性及其关系对企业运营和逻辑规则进行统一的定义、编码和命名,是业务人员和开发人员之间沟通的一套语言。

关系模型和维度模型是常见的数据模型:

关系模型从全企业的高度设计一个3NF模型的方法,用实体加关系描述的数据模型描述企业业务架构,更多是面向数据的整合和一致性,常用于业务系统数据建模;

维度建模以分析决策的需求为出发点构建模型,直接面向业务,典型的代表是我们比较熟知的星形模型,以及在一些特殊场景下适用的雪花模型,大多数据仓库均会采用维度模型建模;

2)当前痛点

① 数据建模与数仓建设落地脱离,模型落地很难,更多的还是停留在文档。

② 模型扩展性不足,导致烟囱式开发。

③ 模型研发缺少有效的系统工具帮助我们管理好数仓模型。

④ 表间引用关系不易检索,数据开发不便。

⑤ 模型设计问题导致任务报错多,给运维带来很大的挑战。

⑥ 无线上体系化的指标衡量数仓。

4)管理目标

  • 稳定性:完善我们数据产出时效和数据质量稳定性,以我们的值班起夜次数和基线破线率、数据质量工单主动发现率为目标 。

  • 扩展性:提升模型变化的兼容性,达到底层业务变动与上层需求变动对模型冲击最小化,以业务需求支持效率和业务模块新建核心表数量为目标。

  • 时效型:提升数据模型产出时效以及需求响应速度,以值班起夜次数和业务需求及时交付率为目标。

  • 易用性:降低下游使用门槛,复杂逻辑前置,通过冗余维度和事实表,进行公共计算逻辑下沉,明细与汇总共存等为业务提供灵活性,以数仓丰富度为目标。

  • 成本:避免烟囱式的重复建设以及优化不合理任务消耗,节约计算、存储成本,以成本执行率为目标。

3、数据仓库/数据湖

数仓/数据湖作为数据中台中数据资源存放的主要形式。

通过数据集成后的数据,需要进行数据清洗,保证数据的可靠性与一致性,然后根据公司业务需求进行建模。
在此过程中所包含的源数据以及后续操作生成的所有数据,我们需要将其保存在数据仓库或数据湖中,以便进行后续的溯源、复用。

主数据管理

主数据指的是企业核心业务对象,且在企业系统内部共享。从维度建模的角度来看,主数据一般存在企业的一致性维度表中,例如客户维度表、商品维度表、地区维度表等。

主数据具有4个主要特征:唯一性、有效性、稳定性、共享性。

4、元数据管理

图:元数据管理

元数据通过全局统一的数据描述信息及系统化管理,统一数据标准,促进数据集成和共享,打通企业内部数据孤岛,提升数据管理和应用效率。

目前常见元数据分类包括:技术元数据、业务元数据、操作元数据、管理元数据、行为元数据、运营元数据、服务元数据。

每个分类下面还有繁多的属性,但是究其本质,我们可以将元数据根据属性来源划分为两类:

技术元数据: 数据本身的特定属性

业务元数据: 业务赋予的可变属性

5、主数据管理

1)概述

主数据指的是企业核心业务对象,且在企业系统内部共享。从维度建模的角度来看,主数据一般存在企业的一致性维度表中,例如客户维度表、商品维度表、地区维度表等。

主数据具有4个主要特征:唯一性、有效性、稳定性、共享性

2)管理意义

主数据管理的主要作用,是帮助企业集中管理数据,保证主数据的一致,从而建立统一视图,实现数据共享,推动业务发展。

3)如何实施

  1. 明确目标范围,对企业内部数据进行主数据划分,制定管理目标;
  2. 调研企业主数据规则与管理情况,明白现实和目标之间的差距;
  3. 搭建制度与流程,从组织,制度,运营层面,对主数据进行管理;
  4. 体系建立后需要打通主数据在企业中产生、集成、管理、服务的闭环。
  5. 把主数据用于日常企业业务中,在此过程中开展包括主数据运营管理优化,主数据推广,主数据质量提升,主数据价值衡量等。

6 、数据血缘

数据血缘是在数据的加工、流转过程产生的数据与数据之间的关系。

提供一种探查数据关系的手段,用于跟踪数据流经路径。

数据血缘主要由以下内容组成:

1)数据节点

数据血缘中的节点,可以理解为数据流转中的一个个实体,用于承载数据功能业务。例如数据库、数据表、数据字段都是数据节点;从广义上来说,与数据业务相关的实体都可以作为节点纳入血缘图中,例如指标、报表、业务系统等。

按照血缘关系划分节点,主要有以下三类:流出节点->中间节点->流入节点

2)节点属性

当前节点的属性信息,例如表名,字段名,注释,说明等。

3)流转路径

数据流转路径通过表现数据流动方向、数据更新量级、数据更新频率三个维度的信息,标明了数据的流入流出信息。

  • 数据流动方向: 通过箭头的方式表明数据流动方向
  • 数据更新量级: 数据更新的量级越大,血缘线条越粗,说明数据的重要性越高。
  • 数据更新频率: 数据更新的频率越高,血缘线条越短,变化越频繁,重要性越高。

4)流转属性

流转属性体现了数据流转过程中发生的变化,记录了当前路径对数据的操作内容,属性可以是直接映射关系,也可以是复杂的规则,例如:

  • 数据映射: 不对数据做任何变动,直接抽取。
  • 数据清洗: 表现数据流转过程中的筛选标准。例如要求数据不能为空值、符合特定格式等。
  • 数据转换: 数据流转过程中,流出实体的数据需要进行特殊处理才能接入到数据需求方。
  • 数据调度: 体现当前数据的调度依赖关系。
  • 数据应用: 为报表与应用提供数据。

7、数据质量

数据质量就是通过一组维度来评价数据的方式,如同判断商品的好坏一样,数据也有评价标准。

数据是对现实世界的反映,如果当前数据代表的意义与现实世界不符,则认为数据出了质量问题。

1)质量问题原因

追根溯源,导致数据出现质量问题的原因有很多,总的来看,主要有业务、技术、管理、基础设施四个方面:

  • **业务端:**业务源系统变更(源系统数据库表结构变更、源系统环境变更)、业务端数据输入不规范等;
  • **技术端:**数据开发任务中各种任务的流程、参数、配置等出错;
  • **管理端 :**认知层面缺乏质量意识、缺乏有效的数据质量问题处理机制等;
  • **基础设施:**物理资源不足、基础设施不稳定等。

2)评判标准

  • 准确性:
    数据描述的信息与客观现实是否相符,准确性是数据质量中最重要的评价标准。
  • 完整性:
    当前数据是否存在丢失、关键字段为空、或者不可用的情况,主要包括:实体完整、属性完整、记录完整和字段值完整。
  • 一致性:
    多源数据是否遵循了统一的规范,数据集合是否保持了统一的格式。
  • 规范性:
    数据是否遵循预定的语法规则并符合其定义,例如数据的类型、长度、格式、取值范围等。
  • 唯一性:
    当前数据是否有重复,是否存在唯一标识保证数据的唯一性,包括:主键唯一,实体唯一,事件唯一
  • 及时性:
    数据从产生到可以查看的时间间隔。数据分析对于及时性要求不高,但如果数据分析周期过长,可能导致分析结论失去借鉴意义。

8、生命周期管理

1)概述

数据生命周期管理(Data Life Cycle Management,DLM)是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从创建和初始存储,到最终过时被删除,即指某个集合的数据从产生或获取到销毁的过程。

2)管理目标

组织通过数据生命周期管理,提高整体数据管理能力,通常来说,数据生命周期管理的目标有以下5个方面:

(1) 高效:提高数据访问性能

(2) 低成本:降低数据存储和管理运维成本

(3) 安全保障:结合应用提供数据访问安全

(4) 综合管理:采用统一的管理方案

(5) 访问便捷:所有数据采用一致的界面访问

9、数据安全管理

1)概述

数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力,包括数据收集、存储、使用、加工、传输、提供、公开等。

2)管理方式

数据分类分级

数据分类分级作为数据安全治理的切入点,是数据安全治理领域的一个专业名词,从名字上就能看出这个名词其实包含了两部分的内容:

  • 数据分类:数据分类是数据资产管理的第一步,不论是对数据资产进行编目、标准化,还是数据的确权、管理,亦或是提供数据资产服务,有效的数据分类都是首要任务。数据分类更多是从业务角度或数据管理的角度出发的,例如:行业维度、业务领域维度、数据来源维度、共享维度、数据开放维度等,根据这些维度,将具有相同属性或特征的数据按照一定的原则和方法进行归类。

  • 数据分级:数据分级是根据数据的敏感程度和数据遭到篡改、破坏、泄露或非法利用后对受害者的影响程度,按照一定的原则和方法进行定义。数据分级更多是从安全合规性要求、数据保护要求的角度出发的,我们称他为数据敏感度分级似乎更为贴切。数据分级本质上就是数据敏感维度的数据分类。

10、数据标准管理

1)概述

数据标准是指企业为保障数据的内外部使用和交换的一致性和准确性而制定的规范性约束。而数据标准管理则是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。

数据标准管理是规范数据标准的制定和实施的一系列活动,是数据资产管理的核心活动之一,对于政府和企业提升数据质量、厘清数据构成、打通数据孤岛、加快数据流通、释放数据价值有着至关重要的作用,具体主要体现在以下几个方面:

  1. 数据标准为数据平台提供统一的数据标准定义和平台逻辑模型;
  2. 数据标准是数据平台进行数据治理的依据和根本;
  3. 数据标准是衡量数据平台数据资产运营和管理的评估依据;
  4. 需要通过数据标准管理的实施,实现对数据平台全网数据的统一运营管理。

2)管理目标

通过统一的数据标准制定和发布,结合制度约束、系统控制等手段,实现数据的完整性、有效性、一致性、规范性、开放性和共享性管理,为数据资产管理提供经管理依据。

对于大多数企业而言,他们已有各种各样的信息规范,如建模规范,但是这些规范只是为了约束开发工作,更多的时候强调的是数据字典表达的规范。而企业级数据标准的目标却是使企业内部在业务和数据上达成共识,业务共识在先,数据共识在后。从一个IT管理的数据规范变成企业级的数据标准,将是非常大的转变,这个转变的核心是以数据标准提高业务的规范性和业务协同能力,同时约束IT系统建设。

11、 统一数据服务

1)意义

中台核心目的就是对外提供便捷、准确、高效的数据服务,前期包括数据集成与数据资产管理均为统一的数据服务提供保障。对外服务的主体包括但不限于数仓数据、指标信息、元数据信息。 服务方式包括但不限于:数据接口、SDK开发包、搜索展示平台、数据地图、数据门户等。

统一服务出口的意义主要有以下几点:

  • 中台内部集成与治理后的数据,对外服务过程中可确保公司层面的数据一致性。
  • 通过可复用的数据服务出口,为后续应用开发减少了工作量。

2)方式

  • 数据接口:通过HTTP接口对外提供数据服务。
  • 可视化图表:将数据通过可视化图表进行展现。
  • 数据地图:在元数据基础上,通过多层次图形化的数据资产管理工具,将企业内各类数据进行展示,帮助业务人员、管理人员、开发人员更好更快地查找、理解、使用和管理数据。
  • 数据门户:通过配置导航菜单,自由组合报表、⼤屏、数据填报、外部链接等资源,形成⼀个可通过⾃定义地址统一访问的资源。数据门户可⽅便用户对多个关联⻚⾯进⾏集中查看。
  • 消息队列:将数据发送至消息中间件中,由下游进行统一消费。

五、未来发展趋势

1、标准化与市场下沉

数据中台的核心在于共享和沉淀能力,随着数据中台在行业头部及领先企业逐渐落地,供应商经历了各类业务场景能力沉淀的过程。

在深度上,数据中台厂商承载细分行业的各类定制化业务,不断沉淀业务能力。

在广度上,随着不同业务场景的持续输入,数据中台厂商产品的能力越来越丰富,覆盖的领域也越来越广泛。

完善数据中台的深度和广度,提炼和整合数据中台的服务,尤其是对于对数据中台能力要求相对简单的中小企业,为客户提供标准化的整体解决方案将成为数据中台服务商的产品方向。

2、精细化

首先,数据中台所提供的底层技术支撑能力,需要供应商在软件架构、云技术、容器编排、DevOps等多方面有充足的技术储备,还需要具备资本和技术实力的双重积累。

纵观中国数据中台行业,虽然界限并不明晰,但是大致形成了以阿里、腾讯等技术雄厚的头部企业侧重提供底层架构技术,其他中小供应商侧重提供行业化服务和产品的竞争格局。

其次,没有一家供应商可以覆盖企业庞大的、所有的需求,尤其是多组织、多板块、跨业务的大型企业,所以在一个领域内已经完成实践和形成规模的供应商会优先深耕本领域,提供更加细分的场景切入口。

最后,企业也会根据业务需求面向不同领域的数据中台产品进行选择,不会局限于一家中台服务商。随着创业公司不断成长,细小赛道逐渐被填充,愈加激烈的市场竞争会使差异化成为供应商采取的产品战略。

3、SAAS化

从内部来看,数据中台不断沉淀跨行业、跨企业复用的组件、模块,存在朝SaaS和本地部署混合模式发展的趋势。从外部来看,随着云计算的普及,部分系统SaaS化趋势较强。因此,作为前台和后台的连接,数据中台与SaaS应用融合对接的
实践越来越多,市场将逐渐形成一套成熟的中台+SaaS系统融合闭环方案。

敏捷开发、快速迭代以适应业务需求是数据中台的基本能力。随着数据中台市场渗透率的提高,应对小量应用调整的场景,低代码需求在近期兴起。允许通过零代码或少量代码就可以快速创建应用,对企业运维团队的要求降低,将充分提升数据
中台的应用性。

六、对数据中台的思考

1、为什么数据中台能这么火

数据中台的概念最早可以追溯到阿里在2015年提出的“大中台,小前台”战略,引用阿里巴巴对中台的定义:

“企业中台就是,将企业的核心能力随着业务不断发展以数字化形式沉淀到平台,形成以服务为中心,由业务中台和数据中台构建起数据闭环运转的运营体系,供企业更高效的进行业务探索和创新,实现以数字化资产的形态构建企业核心差异化竞争力。”

阿里的“中台战略” 不是一个简单的组织变革,还有业务变革、机制变革、技术架构变革的一次全面转型。

在此之后,中台的概念便快速普及,但是数据中台火热的根本,个人认为还是因为其本身的核心理念,完美迎合了目前企业在数字化转型浪潮下的各项痛点需求,包括数据孤岛打通、高效数据服务、数据资产管理等。

可以说数据中台是企业落地数字化转型过程中,不可或缺的指导理念与实践方向。单纯的数据开发、数据平台、数据仓库等为企业构建了完整的数据流通-存储-应用的数据底座,但是从企业数据高效整合、治理、应用以及数据资产化的层面来看,单纯依靠数据底座无法满足上述需求,需要结合数据中台进行落地。

2、对于数据从业者的建议

拥抱中台,建设中台

数据中台作为公司数字化建设的核心,作为数据从业者我们需要积极的去拥抱中台所带来的变化,在建设中台的过程中,包括技术开发、架构调整、理念普及、概念落地,我们都需要尽力的配合,从而打造出一套完整易用的中台体系。

在整个建设过程中,数据从业者的推动能力、落地能力、以及对于数据的理解与管理能力都会得到很大的提升,从而成为一个全面发展的数据人才。

提高核心竞争力

随着数据中台的落地普及,数据管理能力以及数据复用性的提升,导致各公司对于数据从业者的要求也逐步提升。由之前单纯的数据开发、数据仓库、平台建设能力,逐步转变为数据管理能力、数据应用能力、数据驱动企业运营的能力。

这就要求我们对于数据不仅仅停留在开发层面,而是要转为:接-存-管-治-用等全流程的企业数字化转型过程中的落地能力。提升个人核心竞争力,提高对于数据的理解能力与应用能力,才能够让我们在中台的冲击下更加游刃有余。

3、创作此篇文章的目的

目前业内对于数据中台的介绍文章,很多并不是太全面,都只是将中台的概念、企业痛点以及中台的作用描述了一下,缺少中台具体内容的介绍,于是PowerData社区筹备了这篇《对数据中台的梳理与思考》,为大家介绍一下中台的具体内容,以及PowerData社区对于中台的理解与思考。

因为社区内部有很多小伙伴对中台的概念较为模糊,同时又对中台有着极大的兴趣,为了社区成员能够更好的理解数据中台,同时提高社区成员的整体水平,PowerData社区规划了此篇文章。

同时也希望能够有更多的小伙伴加入我们,大家一起聊数据、聊技术、共同分享、共同进步。

引用文献:
亿信华辰:5000字带你全面了解主数据管理
DataFun:数仓规范华-菜鸟数据模型管理实践
极盾科技:5000字详解数据安全治理
Datablau:Datablau数据治理平台
艾瑞咨询:2021年中国数据中台行业白皮书
Gartner:数据中台在中国已经逼近炒作的顶峰

什么是数据中台?全面解读数据中台
surnog的博客
05-10 1433
现在有了数据中台,很多成长问题就能解决,有了基础模型,新人可以系统的学习企业有哪些基本数据能力, O 域数据的增加更是让其有更广阔的视野,有了融合模型,新人可以知道有哪些主题域,从主题域切入去全局的理解公司的业务概念, 有了标签库, 新人可以获得前人的所有智慧结晶,有了数据管理平台,新人能清晰的追溯数据、标签和应用的来龙去脉,所有的知识都是在线的,最新的,意味着新人的高起点。同时,统一的基础模型将相关业务领域的数据做了很好的汇聚,解决了数据互通的诉求,这点的意义巨大,谁都知道数据 1+1>2 的意思。
每日互动CTO谈数据中台(上):从要求、方法论到应用实践
06-01
如何穿透概念下的迷雾,去开启一场可能对企业下一个十年产生重大变革的大数据战略之路。每日互动CTO对数据中台的分享可能帮助大数据从业者梳理出一个立足当下、展望未来的思考新路径。
数字化转型系列主题:数据中台建设的一些思考
Larry的博客
10-27 884
数据中台是一个企业级数据管理平台,集成了数据采集、数据存储、数据处理、数据分析和数据应用等功能,旨在解决传统数据孤岛、数据分散、数据质量不高等问题,通过提供数据一体化、数据共享、数据标准化、数据治理等功能,使得企业内部的各个部门和业务系统能够共享数据、协作分析,从而优化业务流程和提升决策质量
什么是数据中台
热门推荐
好习惯成就伟大
05-17 3万+
01数据中台的前世今生 在正式进入数据中台建设实践之前,我想花点时间先聊一聊大数据的发展史,这样更能理解数据中台诞生的原因。不管是学习一项知识,还是讨论一个问题,最好的方法都不应该是一头扎进细节里,而是应该先从时空的维度了解其来龙去脉,当你了解了一件事物的前因后果后,更能透过现象,洞察背后的本质。理解了大数据的发展历史,更能体会数据中台诞生的必然性和数据中台建设方法论。 1.0 数据仓库诞生 1996年,美国加特纳集团第一次提出商业智能的概念,它是指通过一系列的技术和方法,将企业已有的数据转化为有用的
深入解析「数据中台」,附9张实战案例带你快速入门!
最新发布
m0_69512897的博客
05-17 985
随着互联网的高速发展,数据应用的需求变多,为快速响应业务需求,许多企业开始存在不同程度的烟囱式的开发模式,这种烟囱式的开发导致企业不同业务线的数据割裂,造成了数据的重复加工、研发效率、数据存储和计算资源的严重浪费,大数据的应用成本越来越高,同时带来指标口径不一致等问题,数据中台应运而生。“数据中台”的口号由阿里巴巴提出,它的核心是:避免数据的重复加工,通过数据服务化,提高数据的整合和共享能力,赋能数据应用,为企业经营决策、精细化运营提供支持。点击查看模板高清原图。点击查看模板高清原图。
数据中台详解
cariban的专栏
10-03 1717
明细事实表记录事务层面的事实,保存的是原子数据数据的粒度通常是每个事务一条记录,明细事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。另一方面,ETL模式在清洗过程中只提取有价值的信息进行存储,而是否有价值是基于当前对数据的认知来判断的,由于数据价值会随着我们对数据的认知以及数据智能相关技术的发展而不断被挖掘,因此ETL模式很容易出现一些有价值的数据被清洗掉,导致当某一天需要用这些数据时,又需要重新处理,甚至数据丢失无法找回。建议数据按照贴源数据、统一数仓、标签数据、应用数据的标准统一建设。
数据中台(一)数据中台详解
Yuan_CSDF的博客
06-25 1万+
1.数据中台的由来 数据库阶段 ---> 传统数仓 ---> 大数据平台 ----> 大数据中台 1.1.数据存储起源:数据库 1979年:Oracle1.0商用数据库发布 1996年:MySQL1.0发布,到2000年以后开始火起来。 特点:数据库主要面向事务的增删改场景,一个数据库支撑多个简单单体应用,少量分析需求,借助数据库直接完成。但当数据增长较快,复杂的大量的分析需求,借助数据库做分析开始吃力。 1.2....
数据中台已成下一风口,它会颠覆数据工程师的工作吗?
Julia & Rust & Python
03-19 6986
数据中台已成下一风口,它会颠覆数据工程师的工作吗? 原创: 史凯 AI前线 昨天 采访嘉宾|史凯 整理|Natalie 编辑|Debra AI 前线导读:数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018 年因为“腾讯数据中台论”再度成为了人们谈论的焦点。在 3 月 15 日 ThoughtWorks 技术雷达峰会上,关于数据中台的话题也获得了众多参会者的热烈关注。如今似...
制造业企业中台建设思考与实践.pdf
10-06
《制造业企业中台建设思考与实践》 中台概念在IT领域中迅速崛起,成为业界热议的话题。这一概念源于美军作战体系,强调后方强大能力对前线快速响应的支持。在制造业,中台的构建旨在解决信息化系统繁杂、响应速度慢...
【推荐】郑长帅-在线教育中台化实践与思考
06-05
《在线教育中台化实践与思考》是郑长帅在IAS2019演讲中的主题,这个主题聚焦于教育行业如何利用中台架构提升服务效率和教学质量。在当今数字化转型的大潮中,教育领域的在线化进程也在加速,而“中台”作为企业信息...
中台再思考,微软如何构建现代化数据平台?.pdf
08-21
数据中台的核心目标是创建一个集数据集成、信息梳理和智能业务集成于一体的架构。在数据集成阶段,微软推荐使用Azure Data Factory等工具,将来自Excel、第三方服务、ERP和CRM等不同来源的数据汇集到数据湖(Azure ...
中台战略企业数字化转型的思考.zip
10-03
《中台战略企业数字化转型的思考》 在当今数字化时代,企业正面临着前所未有的变革压力。为了适应快速变化的市场环境,提升业务敏捷性,许多企业开始探索并实践“中台战略”,以此作为推动企业数字化转型的重要手段...
数据中台概述
cosuyo的博客
01-11 7357
数据中台定义 数据中台概念由阿里提出,即实现数据分层和水平解耦,沉淀公共数据能力,提供数据模型、数据服务与数据开发功能。 数据中台到底是什么?是一种产品?还是一种解决方案型产品?数据中台其实更像一种企业架构方法论,是以"共享"(Sharing)为目标的"业务流程再造"(Business Process Re-engineering)和"企业组织重构"(Organizational Restructuring)过程。 数据中台不单单指系统或者工具,而是一个职能部门,通过一系列平台、工具、流程、规范来为整个组织
大数据_什么是数据中台
日积月累,水滴石穿
11-26 5042
数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套可持续不断把数据变成资产并服务业务的机制。数据来源于业务、并反哺业务,不断循环迭代,实现数据可见、可用、可运营。每家企业的业务和数据各不相同,业务对数据的诉求也不相同,所以没有任何两家企业的数据中台是完全相同的。
数据中台建设(二):数据中台简单介绍
wr_java的博客
04-17 1215
2014 年马云正式提出“DT(Data Technology)”的概念,人类从 IT 时代走向 DT 时代,阿里内部的数据平台事业部大刀阔斧的建立整个集团的数据资产,同年,阿里从芬兰 Supercell 公司接触到中台概念后,在集团内部积极践行,开创了“大中台、小前台”的组织机制和业务机制,通过高效、统一的后方系统来支撑快速变化的前端业务,提高业务产出效率,减少成本投入。2018 年中台概念开始深入互联网公司,2019 年数据中台概念大火。
全面解读数据中台,让企业实现数字化转型
01-10 6146
http://www.sohu.com/a/276692256_391226 伴随着云计算、大数据、人工智能等IT技术迅速发展及与传统行业实现快速融合,一场由数字化和智能化转型带来的产业变革正在孕育。 随着企业规模不断扩大、业务多元化——中台服务架构的应运而生。“中台”早期是由美军的作战体系演化而来的,技术上说的“中台”主要是指学习这种高效、灵活和强大的指挥作战体系。阿里在今年发布“...
什么是数据中台
顺其自然~专栏
02-22 418
那各种数据什么时候开始同步,各种计算引擎任务如何合理调度才能使资源利用最合理、等待的时间又不至于太久,同时临时的重要任务还能够尽快执行,这就需要任务调度管理系统来对上述三个部分进行整合完成,大数据平台上的其他系统一般都有开源的可供选择,但任务调度管理系统一般涉及很多个性化的需求,通常需要自己开发,开源的大数据调度系统有 Oozie,也可以在此基础进行扩展。数据中台解决了企业全域数据汇聚的问题,打通以往的数据孤岛,沉淀数据资产,实现数据之间的价值共通,可基于数据中台满足复杂的数据应用场景。
怎么建设数据中台?详解数据中台架构内的三大平台
Leo的博客
03-22 2015
在数字化与信息化高速发展的时代,FineBI——市场占有率第一的BI数据分析软件,旨在帮助企业的业务人员充分了解和利用他们的数据,加速企业数字化转型,提升市场竞争力。得益于FineBI强劲的大数据引擎,用户只需简单拖拽便能制作出丰富多样的数据可视化信息,自由地对数据进行分析和探索,让数据释放出更多未知潜能。
数据中台架构 开放api_开放数据门户网站应该是API [第一个]
cumj63710的博客
06-07 1233
数据中台架构 开放api 什么是API [第一]? 不久前,我在全国政府网络专业人员协会上发言。 在同一个会议上,马克·黑德(Mark Headd)发言。 我们在谈论不同的开放数据主题。 我的讨论是关于开放政府与开放数据之间的区别,而他的演讲是关于API [First]。 幸运的是,他们在不同的时间安排了我们的行程,因此我有机会看到他就使用开放数据的网站开发API [First]策略发表...
weibank 数据中台
08-16
微搬科技是一家专注于搬迁数据中台的技术公司。数据中台是指将企业内部的各类数据整合到一个统一的平台中,通过数据整合、存储、分析和应用,实现数据的全面管理和智能应用。 微搬科技通过提供数据中台搬迁的解决方案,帮助企业将散落在各个系统、数据库和文件中的数据整合到一个中央平台,实现数据的一体化管理。通过数据搬迁和转换工具,微搬科技能够将不同格式、不同存储方式的数据转化为统一、结构化的数据,便于后续的数据分析和应用。 数据中台的建设对企业来说具有重要意义。首先,数据中台可以实现跨部门、跨系统的数据整合,帮助企业消除信息孤岛,提升数据的统一性和准确性。其次,数据中台可以提供高效的数据存储和处理能力,为企业的数据分析和决策提供有效支持。最后,数据中台可以通过应用开放的API接口,实现数据共享和应用的拓展,为企业创造更多的商业价值。 微搬科技作为数据中台搬迁领域的专家,拥有丰富的经验和专业的技术团队。我们致力于为企业提供全方位的数据中台搬迁服务,从数据规划、数据清洗、数据转换到数据整合和应用开发,都能够提供专业的技术支持。无论是大型企业还是中小企业,通过微搬科技的解决方案,都能够高效地搬迁数据中台,提升企业的数据管理水平和业务竞争力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • linux下repo文件的配置 22111
  • HDFS文件上传异常分析:put: `test.txt': No such file or directory 19688
  • JAVA图形化界面实现文件的“读取和写入” 11536
  • docker容器查看进程号码 10804
  • Windows下网页连接VNC操作手册 8584

分类专栏

  • 数据仓库 4篇
  • Kafka 4篇
  • ElasticSearch 3篇
  • Flink 3篇
  • 网络 1篇
  • docker 3篇
  • java 19篇
  • linux 6篇
  • 大数据 31篇
  • 有感而发 5篇
  • Python 13篇
  • Python爬虫 9篇
  • spark 5篇
  • 数据结构与算法

最新评论

  • 基于scrapy与xslt的通用爬虫框架

    you_just: 大佬怎么联系啊

  • 对数据中台的梳理与思考

    云原生大数据之巅峰: 收藏点赞

  • HDFS文件上传异常分析:put: `test.txt': No such file or directory

    Dream.183: 麻烦说明白点啊这具体怎么改啊,hdfs不算用户吧

  • Centos7在线安装CDH5

    李奇峰1998: 3、网站开发者及维护,是否网站前端引用太多资源包,加载过多资源,在加载过程中是否需要请求后台数据,后台逻辑有无优化等等

  • Centos7在线安装CDH5

    李奇峰1998: 2、网络服务商以及云服务商,请求时间是否处于网络高峰期,有无开启CDN加速等

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 数据质量管理深入浅出
  • 【实战】元数据管理落地实施
  • 【实战讲解】数据血缘落地实施
2023年2篇
2022年4篇
2021年16篇
2020年5篇
2019年8篇
2018年8篇
2017年32篇

目录

目录

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码罗湖百度网站优化西乡seo网站推广横岗网站建设坑梓外贸网站制作布吉建站龙岗外贸网站制作坑梓网站关键词优化丹竹头百度seo丹竹头至尊标王广州模板网站建设大芬建设网站双龙百度竞价包年推广广州关键词排名南山建站坂田关键词排名包年推广光明关键词按天收费双龙网站建设设计横岗百搜标王永湖网站制作设计坪山外贸网站制作龙华百度爱采购观澜网站优化按天计费惠州企业网站改版宝安SEO按效果付费南澳seo网站优化福田网站推广系统龙华网站制作设计吉祥百度网站优化排名广州模板制作福田百度标王歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化