大数据(三)大数据技术栈发展史

一、总览

大数据技术栈非常多估计大大小小多达上百种。但发展史、技术体系仍有迹可循。我们从数据采集、清洗、应用3大步骤来看,在每个步骤内部按照时序标识主流技术栈时间点。以此期望能给大家一个初步的映像。三大步骤如下:

  • 数据采集:从数据源进行数据同步,大致分为:主动查询DB数据批量(离线)同步、基于DB log数据变更(实时)同步2大类。
  • 数据清洗:标准的ETL数据清洗,大致分为:离线计算(批处理)、实时计算(流处理)2大类。
  • 数据应用:OLAP在线数据分析、报表、数据大屏、大数据查询服务API。

分步骤整体技术栈如下图所示:

回到顶部(go to top)

二、技术栈

2.1 数据集采

如上图,数据采集可以归纳为两大类:离线查询同步、实时变更同步。如下图所示:

2.1.1 离线同步

离线同步常见技术栈有:Sqoop、Flume、DataX。

2.1.1.1 Sqoop-2009

1)介绍

Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递。可以将关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,2012年Sqoop成为Apache顶级项目。2021年由于三年未更新,已被挪入apache attic(被淘汰的项目)。

2)原理

JDBC直连,会影响源库性能。项目已过时,除非是之前一直在用可以继续用,否则不建议使用

2.1.1.2 Flume-2009

1)介绍

Apache Flume 是一个分布式、高可靠、高可用的用来收集、聚合、转移不同来源的大量日志数据到中央数据仓库的工具。也是Apache顶级项目。

2)同步原理

flume采集流模式进行数据实时采集。适用于日志文件实时采集,特定文件传输场景使用。

2.1.1.3 DataX-2019

1)介绍

DataX是阿里开源的,异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

2)同步原理

为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。

数据库日志同步。适用于在异构数据库/文件系统之间高速交换数据,是主流的离线同步工具,推荐使用

2.1.2 实时同步

2.1.2.1 Canal-2014

1)介绍

canal [kə'næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。2014年,由Alibaba开源。

github:https://github.com/alibaba/canal,阿里巴巴 MySQL binlog 增量订阅&消费组件。

2)同步原理

数据库增量日志解析。仅适用于Mysql数据同步,适用场景局限性过大,无法作为通用技术栈

2.1.2.2 Debezium-2015

1)介绍

 RedHat(红帽公司) 开源的Debezium是一个将多种数据源实时变更数据捕获,形成数据流输出的开源工具。 它是一种CDC(Change Data Capture)工具,工作原理类似大家所熟知的 Canal, DataBus, Maxwell 等,是通过抽取数据库日志来获取变更的。

2)同步原理

Debezium的工作原理是利用数据库日志来捕获数据库更改事件,深度结合Kafka实现

2.1.2.3 FlinkCDC-2020

1)介绍

FlinkCDC是Apache Flink的一组源连接器,使用更改数据捕获(CDC)从不同的数据库摄取更改。项目诞生于2020年,底层也是封装的Debezium。

github:   https://github.com/ververica/flink-cdc-connectors

2)同步原理

同Debezium。

2.1.3 总结

常见开源CDC方案比较如下:

如上图,如果需要做全量+增量同步,FlinkCDC是一个不错的选择。(支持的下游生态更丰富、操作更简单Flink SQL)

2.2 数据清洗

 数据清洗阶段是大数据的核心能力阶段,主要包含计算(离线计算、实时计算)+存储(分布式存储),下面我们就从这两个方面来看有哪些主流技术栈。

如上图所示,Google在2003-2006之间发布了3篇始祖级论文:2003分布式文件系统GFS、2004分布式计算框架MapReduce、2006NoSQL数据库系统BigTable。之后在2006年发布了大数据平台Hadoop,自此这只黄色的可爱小象,驰骋在大数据领域,所向披靡。

2.2.1 计算-离线计算(批计算)

离线计算领域Hadoop的MapReduce是始祖,有2个衍生技术栈:Pig和Hive。最后一个Spark相对Hadoop MapReduce性能上有极大提升。

2.2.1.1 Hadoop MapReduce-2006

1)介绍

Hadoop MapReduce是一个软件框架,可以轻松地编写应用程序,以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多TB数据集)。

2)原理

MapReduce 作业通常将输入数据集拆分为独立的块,这些任务由地图任务以完全并行的方式进行处理。框架对地图的输出进行排序,然后将其输入到reduce任务。

2.2.1.2 Pig-2007

1)介绍

为了简化MapReduce开发的流程,Yahoo工程师发明了Pig,后捐给了Apache。只需编写Pig Latin脚本语言,系统自动转化成mapreduce执行。pig不是主流技术栈,不建议使用。

2)原理

Apache PIG提供一套高级语言平台,用于对结构化与非结构化数据集进行操作与分析。这种语言被称为Pig Latin,其属于一种脚本形式,可直接立足于PIG shell执行或者通过Pig Server进行触发。用户所创建的脚本会在初始阶段由Pig Latin处理引擎进行语义有效性解析,而后被转换为包含整体执行初始逻辑的定向非循环图(简称DAG)。

2.2.1.3 Hive-2007

1)介绍

Hive起源于FaceBook,是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行

2)原理

如上图所示,Hive基本原理就是转换HQL语言为MapReduce任务来执行。hive 并非为联机事务处理而设计,hive 并不提供实时的查询和基于行级的数据更新操作。hive的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。

2.2.1.4 Spark-2010

1)介绍

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。简单来说,Spark是一个快速,通用,可扩展分布式计算引擎。这里把Spark划归离线计算,是把Spark Streaming排除在外的。Spark是离线计算(批处理)领域的主流技术栈。

2)原理

如上图所示,Spark有三个主要特性:RDD的编程模型更简单DAG切分的多阶段计算过程更快速使用内存存储中间计算结果更高效。这三个特性使得Spark相对Hadoop MapReduce可以有更快的执行速度,以及更简单的编程实现。这里具体的细节原理就不展开细讲。

2.2.2 计算-实时计算(流计算)

 

流式计算领域,有3个典型技术栈:Storm、Spark Streaming、Flink,其中Spark Streaming是“微批拟流”,不能算是真流。两种流式处理说明如下:

1)Native Streaming原生流:指每个传入的记录一到达就会被处理,而不必等待其他记录。

2)Micro-batching微批拟流: 这意味着每隔几秒就会将传入记录一起批处理,然后在一个小批量中处理,延迟几秒钟。

2.2.2.1 Storm-2011

1)介绍

Storm是一个免费开源、分布式、高容错的实时计算系统。Storm最早于2011年诞生于Twitter,2013年进入Apache社区进行孵化, 2014年9月,晋级成为Apache顶级项目。早期Storm用于实时计算,Hadoop用于离线计算。现阶段已不推荐使用

2)原理

在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology),它的结构和Mapreduce任务类似,通过自定定义Spout(数据输入处理模块)和Bolt(输出处理模块)逻辑,以及自定义Bolt之间的拓扑依赖关系,完成整个实时事件流的处理逻辑搭建。Topology(拓扑)是一个是由 Spouts 和 Bolts 通过 Stream 连接起来的有向无环图。Topology将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。Topology拓扑结构如下图所示:

Storm采用主从架构。nimbus是集群的Master,负责集群管理、任务分配等。supervisor是Slave,是真正完成计算的地方,每个supervisor启动多个worker进程,每个worker上运行多个task,而task就是spout或者bolt。supervisor和nimbus通过ZooKeeper完成任务分配、心跳检测等操作。如下图所示:

2.2.2.2 Spark Streaming-2013

1)介绍

Spark是Hadoop的批处理(MapReduce)实际继承者。为了应对流式处理场景,2013年Spark 2.0推出了Spark Streaming。但由于不是原生流处理技术栈,存在时延,加之高级功能不如Flink,已不是主流技术栈

2)原理

Spark Streaming是在 Spark Core API基础上扩展出来的,以微批模式实现的近实时计算框架,它认为流是批的特例,将输入数据切分成一个个小的切片,利用Spark引擎作为一个个小的batch数据来处理,最终输出切片流,以此实现近似实时计算。如下图所示:

2.2.2.3 Flink-2014

1)介绍

Apache Flink是一个框架和分布式处理引擎,用于无界和有界数据流的有状态计算。Flink创造性地统一了流处理和批处理,作为流处理看待时输入数据流是无界的,而批处理被作为一种特殊的流处理,只是它的输入数据流被定义为有界的。2015年发布了第一个版本,目前Flink已成为流处理领域的实际标准,且大有一统某些场景的批流一体方案的计算引擎。

同时支持有界、无界:

2)原理

Flink 架构也遵循Master-Slave架构设计原则,JobManager为Master节点,TaskManager为Slave节点。架构图如下:

2.2.3 分布式存储

相比于计算领域的百花齐放,分布式存储技术栈就显得独树一帜了。最早的Hadoop HDFS分布式文件系统,以及基于HDFS衍生出来的Hbase。

 

1)介绍

HBase是一个分布式的、面向列的开源数据库。建立在 HDFS 之上。Hbase的名字的来源是 Hadoop database。HBase 的计算和存储能力取决于 Hadoop 集群。它介于NoSql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过Hive支持来实现多表join等复杂操作)。

HBase中表的特点:

  • :一个表可以有上十亿行,上百万列。
  • 面向列:面向列(族)的存储和权限控制,列(族)独立检索。
  • 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。

2)原理

hbase的系统架构如下:

HBase由三种类型的服务器以主从模式构成:

  • Region Server:负责数据的读写服务,用户通过与Region server交互来实现对数据的访问。
  • HBase HMaster:负责Region的分配及数据库的创建和删除等操作。
  • ZooKeeper:负责维护集群的状态(某台服务器是否在线,服务器之间数据的同步操作及master的选举等)。

HBase 表数据模型如下:

 

与nosql数据库一样,row key是用来检索记录的主键。访问hbase table中的行,只有三种方式:

  1. 通过单个row key访问
  2. 通过row key的range
  3. 全表扫描

2.3 数据应用

 本节聚焦大数据OLAP,讲解主流技术栈。OLAP技术发展至今,已经是”百花齐放“之势,可简单分三类:

  • ROLAP(Relational OLAP,关系型OLAP):使用关系数据库存储管理数据仓库,以关系表存储多维数据,有较强的可伸缩性。其中维数据存储在维表中,而事实数据和维 ID 则 存储在事实表中,维表和事实表通过主外键关联。
  • MOLAP(Multidimensional OLAP,多维型OLAP):MOLAP 支持数据的多维视图,采用多维数据组存储数据,它把维映射到多维数组的下标或下标的范围,而事实数据存储在数组单元中, 从而实现了多维视图到数组的映射,形成了立方体的结构。
  • HOLAP(Hybrid OLAO,混合型OLAP): 混合存储,如低层是关系型的,高层是多维矩阵型的,灵活性强。将明细数据保留在关系型数据库的事实表中,聚合后数据保存在Cube中,查询效率比 ROLAP 高,但性能低于 MOLAP。

2.3.1 ROLAP

Rolap(Relational OLAP),即关系型OLAP。Rolap基于关系型数据库,它的OLAP引擎就是将用户的OLAP操作,如上钻下钻过滤合并等,转换成SQL语句提交到数据库中执行,并且提供聚集导航功能,根据用户操作的维度和度量将SQL查询定位到最粗粒度的事实表上去。分为两大类:1、MPP数据库 2、SQL on Hadoop。

2.3.1.1 MPP数据库

 MPPDB即基于MPP架构(Massive Parallel Processing,海量并行处理)的数据库。典型技术栈有:Doris/StarRocks、ClickHouse、GreenPlum。

Doris-2018

Apache Doris是由百度开源的一款MPP数据库,支持标准的SQL语言,兼容MYSQL协议,可直接对接主流BI系统。2018年捐给apache,后在2022年成为Apache 顶级项目。使用简单、生态完善、运维方便、稳定可靠、国产之光----一站式开箱即用,无脑推荐使用。Doris定位如下图:

ClickHouse-2016

ClickHouse是俄罗斯的Yandex于2016年开源的一个用于联机分析(OLAP)的列式数据库管理系统。性能极高,运维难度较大,全球风靡---推荐使用。看官网介绍的定位支持任何数据源的快速查询,如下图:

GreenPlum

GP(GreenPlum)是2015年开源的老牌的关系型分布式数据库,它在开源的PG(PostgreSql)的基础上采用MPP架构,具有强大的大规模数据分析任务处理能力。----已过时,不推荐

2.3.1.2 SQL on Hadoop

SQL on Hadoop就是利用HDFS实现高度可扩展的数据存储,使得用户可以使用SQL语言,对存储在HDFS上的数据进行分析。这实际上是一套计算和存储分离的方案。

2.3.1.2.1 基于MPP架构

为了提高SQL on Hadoop的性能,第一个重要技术流派的就是MPP(Massively Parallel Processing),即大规模并行处理。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。 其中的代表就是 Presto & Impala

  1)Presto

Presto是 Facebook 推出分布式SQL交互式查询引擎,完全基于内存的并行计算,这也是为啥Presto比Hive快的原因。Presto架构图如下:

  2)Impala

Impala是 Cloudera 在受到 Google 的 Dremel 启发下开发的实时交互SQL大数据查询工具,其也是基于内存的并行计算框架,缺点是仅适用于 HDFS/Hive 系统的查询。

  

  3)其它

  • Drill: Drill 是2012年,MapR 公司开源的一个低延迟的大数据集的分布式SQL查询引擎,是谷歌Dremel的开源实现。它支持对本地文件、HDFS、HBASE等数据进行数据查询。它与同是源自 Dremel 的 Impala 比较类似。
  • HAWQ:HAWQ(Hadoop With Query) 是 Pivotal 公司开源的一个 Hadoop 原生大规模并行SQL分析引擎,基于 GreenPlum 实现,采用主从改进MPP架构,将MPP与批处理系统有效的结合。

 2.3.1.2.2 通用型

   1)Hive SQL-2007

Hive由 Facebook 开源,用于解决海量日志数据的分析,是一个构建于Hadoop顶层的数据仓库工具。底层实现就是Hadoop原生MapReduce.

   2)Spark SQL-2010

Spark是UC Berkeley AMP lab开源的类MapReduce的通用的并行计算框架。Spark SQL 使用内存计算模型,比 MapReduce 磁盘访问的方式在性能上有极大提升

   2)Flink SQL-2019

Blink诞生于2015年,在Alibaba内部使用,2019年开源并于Flink1.9.0版本。Flink SQL 可以做到 API 层的流与批统一,这是一个极大的进步,让用户关注核心API即可而不用关注底层细节

2.3.2 MOLAP

 MOLAP多维型OLAP,即事先将汇总数据计算好,以多维数组的形式保存数据。其核心思想是借助预先聚合结果,用空间换时间。典型架构就是Kylin和Druid。

2.3.2.1 Kylin

Kylin 是2014年由eBay中国研发中心开源的OLAP引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析能力以支持超大规模数据,它能在亚秒内查询巨大的Hive表。其核心技术点在于预计算和Cube(立方体模型)的设置:首先, 对需要分析的数据进行建模,框定需要分析的维度字段;然后通过预处理的形式,对各种维度进行组合事先聚合,将聚合结果以某种索引或者缓存的形式保存起来;最后查询时直接利用结果返回数据。

  • 优点:快。
  • 缺点:只读分析引擎,不支持insert,update,delete等SQL操作;cube建模有成本。

2.3.2.2 Druid

Druid是由广告公司 MetaMarkets 于2012年开源的实时大数据分析引擎。Druid 作为MOLAP引擎,也是对数据进行预聚合。只不过预聚合的方式与Kylin不同,Kylin是Cube化,Druid的预聚合方式只是全维度进行Group-by,相当于是Kylin Cube 的 base cuboid。

  • 优点:快、不需要专业建模能力。
  • 缺点:只适合聚合查询和报告查询,且速度没有Kylin快;
野生的狒狒
关注 关注
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
大数据 相关框架及技术栈简介
weixin_45532984的博客
06-12 3534
一. Hadoop 二. Spark . Flink 四. Zookeeper
大数据技术6:大数据技术栈
何哥的博客
12-09 590
大数据相关的技术名词特别多,这些技术栈之间的关系是什么,对初学者来说很难找到抓手。我一开始从后端转大数据的时候有点懵逼,整体接触了一遍之后才把大数据技术栈给弄明白了。
史上最全的大数据技术栈,有种冲动学习的既视感,你是否感受到了自己的不足?
2401_84048542的博客
04-20 743
互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!” />[外链图片转存中…(img-AMDK34uK-1713582239369)][外链图片转存中…(img-69WWKt48-1713582239369)]《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!
大数据平台架构及主流技术栈
互联网工匠
02-16 4053
互联网和移动互联网技术开启了大规模生产、分享和应用数据的大数据时代。面对如此庞大规模的数据,如何存储?如何计算?各大互联网巨头都进行了探索。Google的篇论文 GFS(2003),MapReduce(2004),Bigtable(2006)为大数据技术奠定了理论基础。随后,基于这篇论文的开源实现Hadoop被各个互联网公司广泛使用。在此过程中,无数互联网工程师基于自己的实践,不断完善和丰富H...
大数据技术栈详解
林老师带你学编程
04-12 4642
相信很多学Java的同学都有想转大数据或者学大数据的想法,但是一看到网上那些大数据技术栈,就一脸懵逼,什么Hadoop、HDFS、MapReduce、Hive、Kafka、Zookeeper、HBase、Sqoop、Flume、Spark、Storm、Flink等等技术。 童鞋们可能一下子就慌了,像学Java的也就SSM、Springboot、Spring Cloud、MySQL这些,线...
大数据技术栈
weixin_48035827的博客
01-18 1991
目录 大数据相关岗位 基础技术 语言基础 计算机基础 技术框架 自学流程 基础知识 大数据框架 大数据相关岗位 数据仓库工程师 大数据平台开发工程师 ETL开发工程师(传统数仓) 数据分析师 数据产品经理 数据运营 基础技术 语言基础 精通一门语言:Java,C,C++,Python,Go,Scala,等等。(大数据建议选择Java) 辅助语言:shell/python 开发会用到的语言 Scala sql 计算机基础 Java是基础工具,学完JavaSE
大数据学习路线 大数据技术栈思维导图 大数据常用软件安装指南
08-05
大数据技术栈思维导图 大数据常用软件安装指南 包括HadoopHive、Spark、Storm、Flink、HBase、Kafka、Zookeeper、Flume、Sqoop等技术的学习 Hadoop 分布式文件存储系统 —— HDFS 分布式计算框架 —— MapReduce ...
大数据综合技术栈图.jpg
最新发布
05-22
大数据综合技术栈大数据架构图,目前大部分企业,大小公司的大数据开发,所需要的技术栈,及层次关系,一图胜千言,一目了然
大数据技术进展与发展趋势.pdf
11-16
大数据技术进展与发展趋势.pdf
大数据技术与应用.pdf
07-13
大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与...
大数据hadoop,spart全套全技术栈视频课程
02-28
大数据hadoop,spart全套全技术栈视频课程,包含spark,hadoop,storm,kafka,mllib等组件的安装,编程等,依次从基础,进阶直到实际实践。
从零搭建企业大数据分析和机器学习平台-技术栈介绍(
程序员石磊
09-03 1168
目录 数据传输和采集 Sqoop数据传输工具 Flume日志收集工具 Kafka分布式消息队列 数据存储 Hbase分布式Nosql数据库 Hdfs分布式文件系统 大数据处理 Hadoop Spark 数据查询分析工具 Apache Hive Pig、Impala和Spark SQL 机器学习 Mahout Spark mllib 其他工具 大...
大数据发展历程
weixin_30508241的博客
10-22 1342
一:大数据概念 大数据是由数量巨大、结构复杂、类型众多的数据结构的数据集合,在合理时间内,通过对该该数据集合的管理、处理、并整理成为能帮助政府机构和企业进行管理、决策的讯息。 二:大数据特点 大数据通常具有以下几种特点: 1、大量:即数据体量庞大,包括采集、存储和计算的量都非常大。 2、高速:要求处理速度快,从各类型的数据中快速获得高价值的信息 3、多样:数据种类繁多 4、...
大数据技术1:大数据发展简史
何哥的博客
12-05 1581
随着信息时代互联网技术爆炸式的发展,人们对于网络的依赖程度日渐加深,在业务中需要处理的数据量快速增加,逐渐飙升到了一个惊人的数量级。并且数据产生的速度随着采集与处理技术的更新仍在加快。 数据量从兆字节(MB)、 吉字节 (GB) 的级别到现在的太字节 (TB)、柏字节(PB) 级别,数据量的变化促使数据管理系统(DBMS) 和数据仓库(DataWarehouse,DW)系统也在悄然地变化着。传统应用的数据系统架构设计时,应用直接访问数据库系统。当用户访问量增加时,数据库
学习大数据个关键技术是一定要掌握!
c11223346的博客
08-22 858
大数据时代全面来临,大数据、人工智能等技术引领科技创新潮流,获得国家政策大力支持,前景广阔。学习大数据技术的人自然是络绎不绝,但提醒你:学习大数据虽然是一个趋势,但也要注意大数据培训课程的质量,大数据个关键技术是一定要掌握的!  一、Hadoop生态体系  Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群...
大数据系列之从大企业架构设计看大数据技术栈
技术笔记
09-08 4784
大数据技术这几年来被炒得火热,一方面也真的是数据量越来越大,传统的海量数据处理技术已经不能够满足当前的业务场景;另一反面,也是由于蕴藏在大量数据中的价值越来越引起人们的重视。 大数据技术的兴起,与人工智能技术的兴起是相辅相成的。大数据处理技术的及时、高效,更方便人工智能的网格计算,越来越多的中小型创业公司也加入了大数据圈。可能一个比较有趣的问题就是,中小型公司哪里能够获取到数据?更何谈大数据?现
大数据技术栈-Web框架&消息队列
allwefantasy的专栏
04-07 5671
大数据技术栈-Web框架&消息队列前言很多人写这方面的文章都喜欢从大的方面讲,讲体系结构,画出各种好看的图,看多了,感觉大家都差不多的样子。比较典型的,我记得是有一期程序员杂志,专门讲各大电商技术体系相关的内容,如果没记错的话,都是各个公司的技术负责人或者主程写的,我的第一感是,诶,原来大家都大同小异。这次我打算从服务写起。从底层写到上层,但是不列具体的体系结构。希望介绍的每个系统,服务,以及里面详
panthera 大数据
09-17
Panthera大数据是一家专注于大数据分析和处理的公司。该公司致力于帮助企业和组织有效地利用海量数据来获取有价值的信息和洞察力,并以此做出更明智的决策。 Panthera大数据提供的解决方案包括数据收集、存储、处理和分析。它们利用先进的技术和算法来处理结构化和非结构化的数据,并将其转化为有意义的见解。这些见解可以帮助企业了解他们的市场、客户需求、竞争对手行为等重要信息。这些信息可以支持企业的战略规划、产品开发、市场营销等方面的决策。 Panthera大数据还提供了可视化工具和报告,帮助用户更直观地理解数据,并快速准确地传达相关信息。他们还提供数据安全和隐私保护的解决方案,确保企业的数据得到安全存储和处理。 与传统的数据处理方法相比,Panthera大数据的优势在于其高效性、准确性和灵活性。他们利用先进的大数据分析技术,可以处理海量的数据,并从中发现隐藏的模式和趋势。他们的解决方案还具有高度的可扩展性,可以适应不同规模和复杂度的数据处理需求。 总而言之,Panthera大数据是提供大数据分析和处理解决方案的专业公司。他们帮助企业从海量数据中挖掘和利用有价值的信息,以支持更好的决策和战略规划。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • protobuf 详解 30392
  • 文档在线预览(三)使用js前端实现word、excel、pdf、ppt 在线预览 25607
  • [QML]事无巨细开始实践QML开发(一)什么是QML,为什么学习QML,先写一个简单的页面 14137
  • spring-boot-maven-plugin插件详解 13866
  • 交叉熵损失CrossEntropyLoss 12320

最新评论

  • MATLAB实现随机森林(RF)回归与自变量影响程度分析

    Zhang_safety: 您好 可以分享一下您的数据,我学习一下嘛?

  • Django 如何使用 Celery 完成异步任务或定时任务

    北风之神c: 总结的很全面,写得赞,博主用心了。 celery对目录层级文件名称格式要求太高,只适合规划新的项目,对不规则文件夹套用难度高。 所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。 所以网上的celery博客教程虽然很多,但是并不能学会使用,因为要运行起来需要以下6个方面都掌握好,博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered,与很多方面有关系,如果要别人排错,至少要发以下6方面的截图,因为与一下6点关系很大。 1)整个项目目录结构, 2)@task入参 ,3)celery的配置,4)celery的配置 include ,5)cmd命令行启动参数 --queues= 的值,6)用户在启动cmd命令行时候,用户所在的文件夹。 在不规范的文件夹路径下,使用celery难度很高,一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。 此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/ , 从用法调用难度,用户所需代码量,超高并发性能,qps控频精确程度,支持的中间件类型,任务控制方式,稳定程度等19个方面全方位超过celery。发布性能提高1000%,消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件,python函数加速器,框架包罗万象,万能编程功能宝典,一统编程思维,与业务不绑定,适用范围广。 funboot能支持celery作为中间件,用户可以使用funboost的极简api来使用celery核心调度,不用手动复杂的配置操作celery funboost 自动化操作celery https://github.com/ydf0509/funboost_support_celery_demo pip install funboost

  • 【python基础】文件-初识文件

    野生的狒狒: 谢谢点评表情包

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 【pandas小技巧】--随机挑选子集
  • Python中对open读取文件内容时的mode模式解析
  • Conda 命令深入指南
2024
06月 46篇
05月 106篇
04月 127篇
02月 32篇
2023年889篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

野生的狒狒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码丽江网站推广公司亳州关键词按天扣费公司孝感网站seo优化推荐怀化SEO按天收费报价防城港网站改版塘坑优化推荐松岗网站制作设计公司襄阳优化报价盘锦网络营销推荐西安网站设计模板多少钱重庆SEO按天收费报价保定关键词排名价格廊坊网站制作泰州阿里店铺运营哪家好普洱网站推广工具推荐烟台百度seo推荐四平网站优化推广价格丹竹头高端网站设计推荐抚顺外贸网站设计价格德宏网站设计报价海西百度网站优化排名多少钱保定关键词按天扣费哪家好清远网站设计云浮设计网站公司海南优秀网站设计报价大庆seo网站推广多少钱汕头企业网站建设公司安康网站改版报价贺州外贸网站建设多少钱阿里seo网站优化推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化