10031-This post is all you need(①多头注意力机制原理)

1 引言

各位朋友大家好,欢迎来到月来客栈。今天要和大家介绍的一篇论文是谷歌2017年所发表的一篇论文,名字叫做”Attention is all you need“[1]。当然,网上已经有了大量的关于这篇论文的解析,不过好菜不怕晚笔者只是在这里谈谈自己对于它的理解以及运用。对于这篇论文,笔者大概会陆续通过7篇文章来进行介绍:①Transformer中多头注意力机制的思想与原理;②Transformer的位置编码与编码解码过程;③Transformer的网络结构与自注意力机制实现;④Transformer的实现过程;⑤基于Transformer的翻译模型;⑥基于Transformer的文本分类模型;⑦基于Transformer的对联生成模型。

希望通过这一系列的7篇文章能够让大家对Transformer有一个比较清楚的认识与理解。下面,就让我们正式走进对于这篇论文的解读中来。公众号后台回复“论文”即可获得下载链接!

2 动机

2.1 面临问题

按照我们一贯解读论文的顺序,首先让我们先一起来看看作者当时为什么要提出Transformer这个模型?需要解决什么样的问题?现在的模型有什么样的缺陷?

在论文的摘要部分作者提到,现在主流的序列模型都是基于复杂的循环神经网络或者是卷积神经网络构造而来的Encoder-Decoder模型,并且就算是目前性能最好的序列模型也都是基于注意力机制下的Encoder-Decoder架构。为什么作者会不停的提及这些传统的Encoder-Decoder模型呢?接着,作者在介绍部分谈到,由于传统的Encoder-Decoder架构在建模过程中,下一个时刻的计算过程会依赖于上一个时刻的输出,而这种固有的属性就限制了传统的Encoder-Decoder模型就不能以并行的方式进行计算,如图1所示。

This inherently sequential nature precludes parallelization within training examples, which becomes critical at longer sequence lengths, as memory constraints limit batching across examples.

图 1. 循环神经网络编码图

随后作者谈到,尽管最新的研究工作已经能够使得传统的循环神经网络在计算效率上有了很大的提升,但是本质的问题依旧没有得到解决。

Recent work has achieved significant improvements in computational efficiency through factorization tricks [21] and conditional computation, while also improving model performance in case of the latter. The fundamental constraint of sequential computation, however, remains.

2.2 解决思路

因此,在这篇论文中,作者首次提出了一种全新的Transformer架构来解决这一问题。Transformer架构的优点在于它完全摈弃了传统的循环结构,取而代之的是只通过注意力机制来计算模型输入与输出的隐含表示,而这种注意力的名字就是大名鼎鼎的自注意力机制(self-attention)。

To the best of our knowledge, however, the Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequence- aligned RNNs or convolution.

总体来说,所谓自注意力机制就是通过某种运算来直接计算得到句子在编码过程中每个位置上的注意力权重;然后再以权重和的形式来计算得到整个句子的隐含向量表示。最终,Transformer架构就是基于这种的自注意力机制而构建的Encoder-Decoder模型。

3 技术手段

在介绍完整篇论文的提出背景后,下面就让我们一起首先来看一看自注意力机制的庐山真面目,然后再来探究整体的网络架构。

3.1 self-Attention

首先需要明白一点的是,所谓的自注意力机制其实就是论文中所指代的”Scaled Dot-Product Attention“。在论文中作者说道,注意力机制可以描述为将query和一系列的key-value对映射到某个输出的过程,而这个输出的向量就是根据query和key计算得到的权重作用于value上的权重和。

An attention function can be described as mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is computed as a weighted sum of the values, where the weight assigned to each value is computed by a compatibility function of the query with the corresponding key.

不过想要更加深入的理解query、key和value的含义,得需要结合Transformer的解码过程,这部分内容将会在后续进行介绍。 具体的,自注意力机制的结构如图2所示。

图 2. 自注意力机制结构图

从图2可以看出,自注意力机制的核心过程就是通过Q和K计算得到注意力权重;然后再作用于V得到整个权重和输出。具体的,对于输入Q、K和V来说,其输出向量的计算公式为:
Attention ( Q , K , V ) = softmax ( Q K T d k ) V            ( 1 ) \text{Attention}(Q,K,V)=\text{softmax}(\frac{QK^T}{\sqrt{d_k}})V\;\;\;\;\;(1) Attention(Q,K,V)=softmax(dk QKT)V(1)
其中Q、K和V分别为3个矩阵,且其(第2个)维度分别为 d q , d k , d v d_q,d_k,d_v dq,dk,dv (从后面的计算过程其实可以发现 d q = d v ) d_q=d_v) dq=dv)。而公式 ( 1 ) (1) (1)中除以 d

最低0.47元/天 解锁文章
This post is all you need (上卷)-层层剥开Transformer v1.3.1.pdf
01-26
This post is all you need (上卷)——层层剥开Transformer v1.3.1.pdf
This post is all you need(下卷)-步步走进BERT v1.2.0.pdf
01-26
This post is all you need(下卷)——步步走进BERT v1.2.0.pdf
深度探索:机器学习中的多头注意力机制(Multi-Head Attention)原理及应用
qq_51320133的博客
04-29 4057
多头注意力机制自提出以来,已经成为深度学习领域的一项革命性创新,特别是在自然语言处理领域,它推动了Transformer架构的兴起,彻底改变了这一领域的技术格局。其核心优势在于强大的序列信息处理能力、高效的并行计算以及对复杂依赖关系的精确捕捉,使得模型能够学习到更加细腻和丰富的特征表示。 展望未来,多头注意力机制的研究方向将更加多元: 理论探索:进一步研究多头注意力的内在机制,提升其可解释性,理解每个头的特异性和作用,为模型设计提供理论指导。 效率优化:随着模型规模的不断扩大,如何在保持性能的同时,降低
注意力机制(四):多头注意力
qq_51957239的博客
03-23 1万+
多头注意力(Multi-Head Attention)是注意力机制的一种扩展形式,可以在处理序列数据时更有效地提取信息。 在标准的注意力机制中,我们计算一个加权的上下文向量来表示输入序列的信息。而在多头注意力中,我们使用多组注意力权重,每组权重可以学习到不同的语义信息,并且每组权重都会产生一个上下文向量。最后,这些上下文向量会被拼接起来,再通过一个线性变换得到最终的输出。
深入探索多头注意力机制:深度学习的关键创新
最新发布
qlkaicx的博客
05-17 1447
它首次在2017年的论文《Attention is All You Need》中被提出,此论文同时引入了Transformer模型,该模型和它的变体如BERT和GPT系列已经彻底改变了NLP的领域。通过并行地使用多个注意力“头”,多头注意力机制能够让模型在不同的子空间中学习到数据的不同表示,从而捕获信息的多个方面。最后,所有头的输出被拼接并再次线性变换,以生成最终的输出。多头注意力机制的核心思想是将注意力层分裂成多个头(head),每个头独立地进行学习和输出,然后将这些输出合并。
动手学深度学习(五十)——多头注意力机制
热门推荐
Liu Feng's Blog
02-21 7万+
文章目录1. 为什么用多头注意力机制2. 什么是多头注意力机制3. 多头注意力机制模型和理论计算4. 动手实现多头注意力机制层小结练习 1. 为什么用多头注意力机制 所谓自注意力机制就是通过某种运算来直接计算得到句子在编码过程中每个位置上的注意力权重;然后再以权重和的形式来计算得到整个句子的隐含向量表示。 自注意力机制的缺陷就是:模型在对当前位置的信息进行编码时,会过度的将注意力集中于自身的位置, 因此作者提出了通过多头注意力机制来解决这一问题。 2. 什么是多头注意力机制   在实践中,当给定
【深度学习】多头注意力机制详解
weixin_44624036的博客
06-03 6941
【深度学习】多头注意力机制详解
注意力机制多头注意力、自注意力、层归一化、位置嵌入
zcy的博客
04-16 1万+
首先注意力模型可以宏观上理解为一个查询(query)到一系列(键key-值value)对的映射。 将Source(源)中的构成元素想象成是由一系列的<Key,Value>数据对构成,此时给定Target(目标)中的某个元素Query(查询),通过计算Query和各个Key的相似性或者相关性,得到每个Key对应Value的权重系数,通过softmax归一化后,对权重和相应Value进行加权求和,即得到了最终的Attention数值。所以本质上Attention机制是对Source中元素的Valu.
注意力机制-多头注意力
Tc、zyh的博客
03-29 1万+
文章目录多头注意力 多头注意力 给定一个Query(查询)和一系列的Key-Value对一起映射出一个输出。包括下面三个关键性步骤: 将Query与Key进行相似性度量 将求得的相似性度量进行缩放标准化 将权重与value进行加权 在实践中,当给定相同的查询、键和值的集合时, 我们希望模型可以基于相同的注意力机制学习到不同的行为, 然后将不同的行为作为知识组合起来, 捕获序列内各种范围的依赖关系 (例如,短距离依赖和长距离依赖关系)。 因此,允许注意力机制组合使用查询、键和值的不同 子空间表示(repr
ThinkPHP中I(),U(),$this-post()等函数用法
01-21
本文实例讲述了ThinkPHP中I(),U(),$this->post()等函数的用法。分享给大家供大家参考。具体方法如下: 在ThinkPHP中在控制器中接受表单的数据可以使用如下方法: 1、$_POST[]/$_GET[],但是这个接受的表单内容不会...
ThinkPHP中I(),U(),$this->post()等函数用法
10-25
这里我们将深入探讨I(), U() 和 $this->post() 这三个常用的函数,以及它们在处理表单数据时的角色。 1. **I() 函数** I() 函数是ThinkPHP提供的一种安全地获取请求参数的方法。它不仅从$_POST或$_GET全局变量中...
collaborative-attention:多头注意力代码
03-20
协作注意力 Jean-Baptiste Cordonnier,Andreas Loukas和Martin Jaggi撰写的论文《多头》的代码。 使用子模块git clone --recurse-submodules https://github.com/epfml/collaborative-attention.git克隆此git clone --recurse-submodules https://github.com/epfml/collaborative-attention.git 我们提供了一个python软件包,用于将任何经过预训练的注意力层重新配置为协作注意力层。这允许在不影响模型性能的情况下减小键/查询的维数。我们的因式分解可用于预先训练,以取代串联的头部注意力,也可以在微调之前用作压缩方法。 安装 克隆此存储库并使用pip安装软件包: # you need to have
scrapy-redis源码分析之发送POST请求详解
09-09
主要给大家介绍了关于scrapy-redis源码分析之发送POST请求的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用scrapy-redis具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
多头注意力机制
quanlibin1984的博客
08-13 1080
多头注意力机制中,每个注意力头计算出一组注意力权重,并将这些权重与相应的值进行加权求和,从而生成每个位置的输出。计算注意力权重通常通过将查询(Query)与键(Key)进行点积,然后通过缩放因子(例如,分母中的根号 dk)和 softmax 函数将点积的结果转化为注意力权重。多头注意力机制包括多个注意力头,每个头都有自己的权重矩阵,用于计算每个位置与其他所有位置的注意力分数。对于每个注意力头,计算该头的注意力权重。对于每个位置,将其注意力权重与相应位置的值进行加权求和,得到该位置的注意力输出。
注意力机制[矩阵]
m0_46312382的博客
07-06 1930
其中q(i,1)与q(i,2)是与两个不同的矩阵,相乘得出的。将 q(i,1)与对应的K(i,1)和K(j,1)相乘,再与V(i,1)和V(j,1)分别相乘,得出b(i,1)和b(i,2),再通过以下转换,输出。将A‘的第一列,也就是取q1和其他的k1,k2,k3,k4相乘的值,再经过softmax转换后,与vlue值相乘,再相加就得出b1。I矩阵有a1,a2,a3,a4组成,Wq为权重矩阵,将I与Wq相乘求得Q(q1,q2,q3,q4)。将求得出来的K,转置为竖向量与Q相乘,就可以得出α11,α12…
Transformer系列(2)】注意力机制、自注意力机制多头注意力机制、通道注意力机制、空间注意力机制超详细讲解
路人贾的博客
04-17 7万+
一文带你读懂注意力机制、自注意力机制多头注意力机制、通道注意力机制、空间注意力机制,超详细的讲解,小白也能看得懂!
注意力机制 - 多头注意力
yingzi的技术博客
09-13 1802
在实践中,当给定相同的查询、键和值的集合时,我们希望模型可以基于相应的注意力机制学习到不同的行为,然后将不同的行为作为知识组合起来,捕获序列内各种范围的依赖关系(例如,段距离依赖和长距离依赖关系)。因此,运行注意力机制组合使用查询、键和值的不同子空间表示(representation subspaces)可能时有益的为此,与其只使用单独一个注意力汇聚。我们可以用独立学习得到的h组不同的线性投影(linear projections)来变换查询、键和值。
注意力机制
S_5922的博客
12-08 100
注意力机制引入了显示的考虑随机线索(即有偏向性的选择某些输入)引入了三个概率:query(随机线索):想要查询的信息key(不随机线索):本身所具有的属性value(值):这个属性所对应的价值注:key和value可以相同,也可以不相同。。例如某物的价值因人而异。
注意力机制(四)(多头注意力机制
十二月的猫
04-28 1984
前文,我们介绍了自注意力机制:自注意力的QKV是同源的。同源的好处就是更容易发现序列内部的信息,但是也存在一些可以改进的地方。例如:对于一个待分析的序列矩阵,它存在许多方面的特征。此时我们要用一个参数矩阵Wq、Wk去分析并学习出序列中的这么多特征。由于参数矩阵的维度是有限的,所以一次性学习多特征的信息必然会造成信息学习的模糊性,所以作者又提出了多头注意力机制下图为多头注意力机制模型图:它为注意力机制提供了多个投射子空间的可能。
多头注意力机制结构图
08-15
多头注意力机制结构图如图2所示,它是Transformer模型中的一个关键组件。通过多头注意力机制,模型可以同时关注不同位置的信息,从而解决了自注意力机制在编码当前位置信息时过度集中于自身位置的问题。多头注意力机制的输出包含了不同子空间中的编码表示信息,进一步增强了模型的表达能力。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [10031-This post is all you need(多头注意力机制原理)](https://blog.csdn.net/The_lastest/article/details/118555346)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • dataframe 按条件替换某一列中的值 54898
  • 方向导数(Directional derivatives) 50766
  • 拉格朗日乘数法(Lagrange multiplier) 36519
  • Matlab中如何使函数作为参数传递 36362
  • 利用jieba进行中文分词并进行词频统计 35934

分类专栏

  • 跟我一起深度学习 18篇
  • 自然语言处理 2篇
  • 跟我一起机器学习 44篇
  • Tensorflow入门指南 7篇
  • 机器学习 43篇
  • Tensorflow框架 32篇
  • 数据预处理 15篇
  • sklearn框架 7篇
  • 数学相关 8篇
  • Matplotlib 2篇
  • 论文 6篇
  • 操作系统 2篇
  • 编译/运行/系统错误总结 6篇
  • Matlab 5篇
  • C/C++ 51篇
  • Linux相关 2篇
  • gmp 2篇
  • Github相关 6篇
  • GNU/Linux 命令 3篇
  • 小程序 10篇
  • 深度学习相关 16篇

最新评论

  • list去重及求两个list中元素的重复率

    xz_404: 求重复率为什么要对列表去重

  • Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction

    qxxlxxq: 您好数据集能重新分享一下吗?

  • Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction

    云梦泽๑҉: 博主大大,github上的数据集链接消失了,你能分享一下吗,万分感谢

  • 朴素贝叶斯算法与贝叶斯估计

    普通网友: 照搬的《统计学习方法》第四章,没有原创内容。。。

  • 朴素贝叶斯算法与贝叶斯估计

    普通网友: 完全照搬的《统计学习方法》第四章,连例子都一模一样!

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 多标签分类中的损失函数与评估指标
  • GoogLeNet: Going deeper with convolutions
  • Inception: Going deeper with convolutions
2021年3篇
2020年71篇
2019年13篇
2018年59篇
2017年82篇
2015年49篇
2014年7篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码南联网站搭建大运网站推广坂田网站推广工具福田网站推广永湖百姓网标王推广永湖百搜词包荷坳标王塘坑seo民治seo龙华模板网站建设广州网站推广系统大浪标王盐田网站搜索优化大运网站搭建大运关键词按天收费塘坑如何制作网站罗湖seo排名福永如何制作网站大浪seo广州SEO按天收费荷坳网站定制布吉网站推广工具东莞建设网站荷坳网站排名优化荷坳高端网站设计木棉湾设计网站丹竹头seo优化南澳seo优化惠州企业网站改版坂田网站建设歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化