主流人工智能平台的架构及调优经验总结

31 篇文章 4 订阅
订阅专栏
30 篇文章 11 订阅
订阅专栏

人工智能(Artificial Intelligence)是一个大的概念,是让机器像人一样思考甚至超越人类;

机器学习(Mechine Learning)是实现人工智能的一种方法,机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测;

深度学习(Deep learning)又是机器学习的一种实现方式,他是模拟人神经网络的方式,用更多的层数,更多的神经元,然后给系统输入海量的数据,来训练网络;

统计学是机器学习和神经网络的一种基础知识,从传统分工来看,统计学一般是数学、统计等专业研究的方向,而机器学习是计算机科学的研究方向,但是目前大家的研究成果越来越殊途同归,有统计学的大师就认为统计实际上一直在从事机器学习的工作。

AI计算需要大量的数据,数据从前端传输到后端进行预处理,然后进行标注,获得训练数据集。对下一轮数据,需要对数据集进行调整,或者增加了新的数据集,生成更大的训练数据集;那么整个数据预处理过程是I/O非常密集的过程。数据整理好之后,进行模型训练,这是一个计算和通信非常密集的过程;模型训练完之后,我们进行推理预测,其主要是一个前向计算过程。其需要对批量样本的高吞吐高并发响应和单个样本的低延时响应。

数据分析过程:问题抽象-》数据域定义-》数据处理-》数据集成-》数据加工-》数据集(用于数据分析的集合)

离线分析:历史数据

实时分析:运行数据

调优方案:

问题抽象:分类、聚类、推荐、关联规则

特征获取:预处理

特征选择-》专业知识(知识库)+算法(逻辑回归+PCA

数据模型建立:评价(敏感度、特异度)

算法库:Weka/Spark/Python/Java/C++;TensorFlow/Torch/Pytorch

数据特点:大数据4V

数据模型的实时更新:按天

实时预测效率(秒级预测):Spark/Flink

误差分析:训练集的数据排查

算法调优

混淆矩阵


混淆矩阵包含四部分的信息:

True negative(TN),称为真阴率,表明实际是负样本预测成负样本的样本数
False positive(FP),称为假阳率,表明实际是负样本预测成正样本的样本数
False negative(FN),称为假阴率,表明实际是正样本预测成负样本的样本数
True positive(TP),称为真阳率,表明实际是正样本预测成正样本的样本数
对照着混淆矩阵,很容易就能把关系、概念理清楚,但是久而久之,也很容易忘记概念。不妨我们按照位置前后分为两部分记忆,前面的部分是True/False表示真假,即代表着预测的正确性,后面的部分是positive/negative表示正负样本,即代表着预测的结果,所以,混淆矩阵即可表示为正确性-预测结果的集合。现在我们再来看上述四个部分的概念(均代表样本数,下述省略):

TN,预测是负样本,预测对了
FP,预测是正样本,预测错了
FN,预测是负样本,预测错了
TP,预测是正样本,预测对了
 

召回率 / Recall / True positive rate / TPR / 灵敏度 /  敏感性 / sensitive/ 查全率
而召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。

                      R = TP/(TP+FN)  

精确率 / precision / PPV / 查准率
精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是对的。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。

                      P = TP/(TP+FP)

特异性 / specificity
样本中的负类被预测为负类的比例

ROC曲线
事实上,要一下子弄清楚什么是AUC并不是那么容易,首先我们要从ROC曲线说起。对于某个二分类分类器来说,输出结果标签(0还是1)往往取决于输出的概率以及预定的概率阈值,比如常见的阈值就是0.5,大于0.5的认为是正样本,小于0.5的认为是负样本。如果增大这个阈值,预测错误(针对正样本而言,即指预测是正样本但是预测错误,下同)的概率就会降低但是随之而来的就是预测正确的概率也降低;如果减小这个阈值,那么预测正确的概率会升高但是同时预测错误的概率也会升高。实际上,这种阈值的选取也一定程度上反映了分类器的分类能力。我们当然希望无论选取多大的阈值,分类都能尽可能地正确,也就是希望该分类器的分类能力越强越好,一定程度上可以理解成一种鲁棒能力吧。
为了形象地衡量这种分类能力,ROC曲线横空出世!如下图所示,即为一条ROC曲线(该曲线的原始数据第三部分会介绍)。现在关心的是:

横轴:False Positive Rate(假阳率,FPR) / 1-特异性
纵轴:True Positive Rate(真阳率,TPR) / TPR / 灵敏度 /  敏感性 / sensitive / 召回率 / Recall
 

假阳率,简单通俗来理解就是预测为正样本但是预测错了的可能性,显然,我们不希望该指标太高。
FPR=FPTN+FP

真阳率,则是代表预测为正样本但是预测对了的可能性,当然,我们希望真阳率越高越好。
TPR=TPTP+FN

显然,ROC曲线的横纵坐标都在[0,1]之间,自然ROC曲线的面积不大于1。现在我们来分析几个特殊情况,从而更好地掌握ROC曲线的性质:

(0,0):假阳率和真阳率都为0,即分类器全部预测成负样本
(0,1):假阳率为0,真阳率为1,全部完美预测正确,happy
(1,0):假阳率为1,真阳率为0,全部完美预测错误,悲剧
(1,1):假阳率和真阳率都为1,即分类器全部预测成正样本
TPR=FPR,斜对角线,预测为正样本的结果一半是对的,一半是错的,代表随机分类器的预测效果
于是,我们可以得到基本的结论:ROC曲线在斜对角线以下,则表示该分类器效果差于随机分类器,反之,效果好于随机分类器,当然,我们希望ROC曲线尽量除于斜对角线以上,也就是向左上角(0,1)凸。

AUC(Area under the ROC curve)
ROC曲线一定程度上可以反映分类器的分类效果,但是不够直观,我们希望有这么一个指标,如果这个指标越大越好,越小越差,于是,就有了AUC。AUC实际上就是ROC曲线下的面积。AUC直观地反映了ROC曲线表达的分类能力。

AUC = 1,代表完美分类器
0.5 < AUC < 1,优于随机分类器
0 < AUC < 0.5,差于随机分类器
 

主流人工智能平台架构调优经验总结.pdf
02-27
主流⼈⼯智能平台架构调优经验总结 ⼈⼯智能(Artificial Intelligence)是⼀个⼤的概念,是让机器像⼈⼀样思考甚⾄超越⼈类; 机器学习(Mechine Learning)是实现⼈⼯智能的⼀种⽅法,机器学习最基本的做法,是使⽤算法来解析数据、从中学习,然后对真实世 界中的事件做出决策和预测; 深度学习(Deep learning)⼜是机器学习的⼀种实现⽅式,他是模拟⼈神经⽹络的⽅式,⽤更多的层数,更多的神经元,然后给系统输⼊ 海量的数据,来训练⽹络; 统计学是机器学习和神经⽹络的⼀种基础知识,从传统分⼯来看,统计学⼀般是数学、统计等专业研究的⽅向,⽽机器学习是计算机科学的 研究⽅向,但是⽬前⼤家的研究成果越来越殊途同归,有统计学的⼤师就认为统计实际上⼀直在从事机器学习的⼯作。 AI计算需要⼤量的数据,数据从前端传输到后端进⾏预处理,然后进⾏标注,获得训练数据集。对下⼀轮数据,需要对数据集进⾏调整,或 者增加了新的数据集,⽣成更⼤的训练数据集;那么整个数据预处理过程是I/O⾮常密集的过程。数据整理好之后,进⾏模型训练,这是⼀ 个计算和通信⾮常密集的过程;模型训练完之后,我们进⾏推理预测,其主要是⼀个前向计算过程。其需要对批量样本的⾼吞吐⾼并发响应 和单个样本的低延时响应。 数据分析过程:问题抽象-》数据域定义-》数据处理-》数据集成-》数据加⼯-》数据集(⽤于数据分析的集合) 离线分析:历史数据 实时分析:运⾏数据 调优⽅案: ·问题抽象:分类、聚类、推荐、关联规则 ·特征获取:预处理 ·特征选择-》专业知识(知识库)+算法(逻辑回归+PCA) ·数据模型建⽴:评价(敏感度、特异度) ·算法库:Weka/Spark/Python/Java/C++;TensorFlow/Torch/Pytorch ·数据特点:⼤数据4个V ·数据模型的实时更新:按天 ·实时预测效率(秒级预测):Spark/Flink ·误差分析:训练集的数据排查 ·算法调优 混淆矩阵 混淆矩阵包含四部分的信息: True negative(TN),称为真阴率,表明实际是负样本预测成负样本的样本数 False positive(FP),称为假阳率,表明实际是负样本预测成正样本的样本数 False negative(FN),称为假阴率,表明实际是正样本预测成负样本的样本数 True positive(TP),称为真阳率,表明实际是正样本预测成正样本的样本数 对照着混淆矩阵,很容易就能把关系、概念理清楚,但是久⽽久之,也很容易忘记概念。不妨我们按照位置前后分为两部分记忆,前⾯的部 分是True/False表⽰真假,即代表着预测的正确性,后⾯的部分是positive/negative表⽰正负样本,即代表着预测的结果,所以,混淆 矩阵即可表⽰为正确性-预测结果的集合。现在我们再来看上述四个部分的概念(均代表样本数,下述省略): TN,预测是负样本,预测对了 FP,预测是正样本,预测错了 FN,预测是负样本,预测错了 TP,预测是正样本,预测对了 召回率 / Recall / True positive rate / TPR / 灵敏度 / 敏感性 / sensitive/ 查全率 ⽽召回率是针对我们原来的样本⽽⾔的,它表⽰的是样本中的正例有多少被预测正确了。那也有两种可能,⼀种是把原来的正类预测成正类 (TP),另⼀种就是把原来的正类预测为负类(FN)。 R = TP/(TP+FN) 精确率 / precision / PPV / 查准率 精确率是针对我们预测结果⽽⾔的,它表⽰的是预测为正的样本中有多少是对的。那么预测为正就有两种可能了,⼀种就是把正类预测为正 类(TP),另⼀种就是把负类预测为正类(FP)。 P = TP/(TP+FP) 特异性 / specificity 样本中的负类被预测为负类的⽐例 ROC曲线 事实上,要⼀下⼦弄清楚什么是AUC并不是那么容易,⾸先我们要从ROC曲线说起。对于某个⼆分类分类器来说,输出结果标签(0还是 1)往往取决于输出的概率以及预定的概率阈值,⽐如常见的阈值就是0.5,⼤于0.5的认为是正样本,⼩于0.5的认为是负样本。如果增⼤ 这个阈值,预测错误(针对正样本⽽⾔,即指预测是正样本但是预测错误,下同)的概率就会降低但是随之⽽来的就是预测正确的概率也降 低;如果减⼩这个阈值,那么预测正确的概率会升⾼但是同时预测错误的概率也会升⾼。实际上,这种阈值的选取也⼀定程度上反映了分类 器的分类能⼒。我们当然希望⽆论选取多⼤的阈值,分类都能尽可能地正确,也就是希望该分类器的分类能⼒越强越好,⼀定程度上可以理 解成⼀种鲁棒能⼒吧。 为了形象地衡量这种分类能⼒,ROC曲线横空出世!如下图所⽰,即为⼀条ROC曲线(该曲线的原始数据
人工智能(一)架构
m0_69270256的博客
05-16 1170
人工智能这个词不是很新鲜,早就有开始研究的,各种推荐系统、智能客服都是有一定的智能服务的,但是一直都没有体现出多高的智能性,很多时候更像是‘人工智障’。 但是自从chatGpt3被大范围的营销和使用之后,人工智能逐渐体现出来他的智能性和高度的推理分析能力,他的范围也不再局限于软件行业,财务、法律、人事等等各种各样的行业都开始进行学习使用。 作者经过一段时间的研究学习,对于AI也有了自己的一些理解,在这里进行分享,希望读者可以解开心中的疑惑,并且做好未来AI的学习应对。
AI架构设计4:理解AI云原生
最新发布
鲁班模锤
05-23 964
泛AI架构设计这个专栏主要关注围绕着AI运用于实际的业务场景所需的系统架构设计,包括业务数据治理、模型训练与管理、模型部署与调度。整体基于云原生技术,旨在通过开源领域的LLMOps或者MLOps技术,充分运用低代码平台构建高性能、高效率和敏捷响应的AI中台。
工程师笔记|浅析AI平台架构设计
weixin_34072637的博客
12-11 1735
摘要关于机器学习,很多人都强调算法而忽视了基础架构的作用,一种看似“高大上”的算法集成到实际环境中,也可能用起来“水土不服”,原因就在于基础架构的支持力度不够。所以,基础架构和算法同等重要,这里我们从AI平台基础架构中至关重要的存储架构,谈一谈AI平台架构设计, 供相关人员参考。目前,在政策和市场的双重驱动下,我国人工智能发展获得长足进步,“言必谈AI”已经成为各个科技公司技术峰会和企业间交流必...
人工智能主流框架简介
热门推荐
lyq_csdn的博客
06-09 3万+
参考:https://www.zhihu.com/question/52668301推荐:https://www.jianshu.com/p/39561bdeac0d一、TensorFlow:TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow...
ai平台技术架构
zzylekang的博客
04-08 2680
ai领域框图
新华三推出人工智能模型训练平台,让智慧算力触手可及
脑极体
12-20 456
随着AI技术不断完善升级,产业界的主要需求已经不再是基础算法的打磨,而是如何让AI技术与行业场景、企业需求相契合。不久之前,科技部等六部门联合印发了《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》,明确提出了AI技术与不同行业、不同场景的融合路径。在这样的产业背景下,我们需要正视AI落地行业的需求与挑战。尤其对于数字化程度不高,对AI技术缺乏了解与布局的产业,很可能面临着数据孤...
人工智能都这么火了,底层基础架构还有必要开源吗?
CSDN资讯
11-30 4367
开源是技术圈永不过时的话题,而作为目前最成功的开源项目,OpenStack在开源世界的成功有目共睹。虽然近年来越来越多的云计算厂商开始走自主研发路线,一时之间引起了业界对...
大数据平台架构主流技术栈
01-07
互联网和移动互联网技术...经过十几年的发展,如今的大数据技术生态已相对成熟,围绕大数据应用搭建的平台架构和技术选型也逐渐趋向统一。 上图是目前国内各大互联网公司普遍采用的大数据平台架构和技术选型。康威定律
sqlserver性能调优经验总结
01-21
相信不少的朋友,无论是做开发、架构的,还是DBA等,都经常听说“调优”这个词。说起“调优”,可能会让很多技术人员心头激情澎湃,也可能会让很多人感觉苦恼。当然,也有很多人对此不屑一顾,因为并不是每个人接触...
主流数据库体系架构及方案必备指南-浪潮内部资料
02-28
本文将深入探讨五种主流数据库的体系架构及常见方案,包括Oracle、K-DB、DB2、Sybase和MySQL。 首先,我们来看Oracle数据库。Oracle是全球广泛使用的数据库管理系统,其基本架构分为几个关键部分:存储结构、内存...
人工智能时代的计算架构发展趋势
03-02
人工智能时代,计算架构的发展趋势是至关重要的,因为这直接影响到云计算、智能应用以及未来技术的演进。本文将深入探讨CPU、GPU/NPU等不同计算架构,以及异构计算的重要性,同时关注英伟达、华为等公司在计算体系...
飞天AI平台到底哪里与众不同?听听它的架构者怎么说
AI科技大本营
10-09 2738
采访嘉宾 |林伟 整理 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 天下没有不散的宴席。 9 月 25 日,云栖大会在云栖小镇开始,历经三天的技术盛宴,于 9 月 27 日的傍晚结束。 三天、全球6.7万人现场参会、超1250万人在线观看,今年的云栖大会上技术亮点颇多,尤其是在机器学习领域,阿里巴巴的飞天AI平台和飞天大数据平台一亮相,就立刻引起了...
10大热门人工智能开源工具(框架)
zhangbijun1230的专栏
06-16 3万+
10大热门人工智能开源工具(框架)摘要: 本文讲了10个热门的人工智能开源工具/框架。下面是我们今天要讲的10个热门的人工智能开源工具/框架。1.TensorFlowTensorFlow™是一个开源软件库,最初由Google Brain Team的研究人员和工程师开发。TensorFlow使用数据流图进行数值计算。图中的节点表示数学运算,边表示它们之间通信的多维数据数组(张量)。其架构灵活,你可以...
大数据AI系统解决方案与技术架构目录
shiter编写程序的艺术
09-13 857
大数据AI系统解决方案与技术架构针对日益场景的机器学习系统从设计模式、解决方案,逻辑架构出发给出最终落地实现的技术架构与深入思考。
AI算法实现与云平台应用
Go中国
03-08 8246
陈迪豪,第四范式先知平台架构师。个人兴趣广泛,在开源社区比较活跃,维护了1600+ star的容器Web管理平台Seagull。大二加入了小米做Android移动端开发,然后有幸学习到后端基础架构技术,参与了HBase、ZooKeeper等社区开发,并且开源了NewSQL依赖的全局严格递增timestamp服务chronos,对分布式存储有一定了解。后来加入云服务创业公司UnitedStack,负
推荐|5种商业AI产品的技术架构设计!
u011785964的博客
12-04 437
本文转自:https://blog.csdn.net/cf2suds8x8f0v/article/details/78999172 概要:今天我们就特别推荐达观数据的几个商业产品设计技术架构,希望对于广大技术有帮助。 做任何一个商业产品设计,技术架构都是首先要考虑的,特别是面对海量数据的AI商业项目更是如此。今天我们就特别推荐达观数据的几个商业产品设计技术架构,希望对于广大技术有帮助。 一...
人工智能平台选择
xiefen168的博客
12-15 3606
机器学习 机器学习主要研究机器模拟人的学习行为,以获取新的知识或技能。机器学习人工智能基础技术层的软件核心。 机器学习一般分为训练(Training)和推断(Inference)两个阶段。在训练阶段,机器需要读取大量的训练数据(类似人类的经验)经过大规模的训练生成一个模型(类似人类学习得到的技能)。在推断阶段,机器利用训练得到的模型,可以预测新数据的结果。 目前主流机器学习分支主要有统计

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交

博客专家认证

417
原创
888
点赞
2038
收藏
1048
粉丝
关注
私信
写文章

热门文章

  • AI大模型系列之五:BERT技术详解(深度好文) 26231
  • 2018年医疗大数据产业的发展及解决方案 25672
  • 互联网医疗大数据类型的深度分析 18924
  • Java架构师面试宝典(含答案) 16180
  • Netty工作原理最详细分析 15020

分类专栏

  • AI大模型技术 11篇
  • AI深度学习技术 30篇
  • 企业经营管理实战 15篇
  • 管理科学 29篇
  • 区块链
  • 大数据平台架构设计 47篇
  • 大型项目之设计模式实战 12篇
  • Spark生态核心技术 27篇
  • 大数据平台架构设计 60篇
  • 机器学习实战 19篇
  • 微服务系列核心技术 28篇
  • 设计模式实战 12篇
  • 经典算法解析 9篇
  • 大数据工程师面试宝典 3篇
  • Hadoop生态核心技术 29篇
  • J2EE核心框架生态 47篇
  • 技术管理 41篇
  • 数据库生态技术 31篇
  • 人工智能技术 31篇
  • 优秀解决方案 11篇
  • Scala语言实践 2篇

最新评论

  • AI大模型系列之一:大模型原理科普(深度好文)

    m0_74362852: 大家都接触过i吧额我了啊i在去

  • 华为如何做成数字化转型?

    征途黯然.: The insights into 华为如何做成数字化转型 are very unique, and the article is excellent.表情包

  • AI大模型系列之七:Transformer架构讲解

    常耀斌: 认知是人与人的差距所在,提升认知力,是一切方法论的基础。

  • 阿米巴经营之深入解读

    常耀斌: 深度好文!

  • AI大模型系列之二:ChatGPT科普(深度好文)

    常耀斌: 感谢关注表情包表情包,后续是一个AI大模型系列

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 解析诸葛亮的管理智慧
  • 2024世界人工智能大会:谈AI如何落地?
  • 华为如何做成数字化转型?
2024年15篇
2023年3篇
2022年28篇
2021年15篇
2020年29篇
2019年62篇
2018年268篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码龙岗营销网站广州网站seo优化坂田企业网站改版布吉网站定制盐田网站优化同乐seo网站优化大芬企业网站制作罗湖企业网站改版沙井SEO按天计费永湖建网站宝安百度seo横岗网站推广永湖建设网站南联网页制作龙华网站推广系统大运企业网站设计东莞网站制作平湖模板推广横岗网站推广工具木棉湾网站优化按天收费惠州企业网站设计民治百度竞价南澳建设网站观澜优秀网站设计罗湖建站龙华网站优化按天收费南山网站优化按天扣费光明网络营销惠州优化大浪网站搭建歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化