Attention 注意力机制浅学

目录

  • Attention前言
  • Encoder-Decoder
  • Attention机制
  • sele-attention机制
  • decoder
  • 总结Attention的三大优点
    • **中心思想:通过加权求和,context上下文理解。**

Attention前言

Attention即权重
翻译为例
Attention 注意力机制浅学_第1张图片
games是游戏,但是综合2022 beijing winter 就翻译为比赛,不不不,应该是冬奥会。
Attention 注意力机制浅学_第2张图片

Encoder-Decoder

RNN模型改进传统的神经网络,建立了网络隐层间的时序关联。
Attention 注意力机制浅学_第3张图片
每一时刻的隐层状态St,不仅取决于上一时刻的Xt,还包含上一时刻状态St-1
Attention 注意力机制浅学_第4张图片
两个RNN模型的组成,形成Encoder-Decoder模型,下
Attention 注意力机制浅学_第5张图片
先对一句话编码,然后再解码,就能实现机器翻译。但是这种不管输入多长,都统一压缩成相同长度编码C的做法。(会导致翻译精度下降)
Attention 注意力机制浅学_第6张图片
Attention 注意力机制浅学_第7张图片
下面来看

Attention机制

Attention 注意力机制浅学_第8张图片
以Ct的视角看,在他眼中就是不同输入的注意力,因此被称为attention分布。
Attention 注意力机制浅学_第9张图片
通过神经网络数据训练,得到最好的attention权重矩阵,通过attention机制的引入,打破只能利用encoder形成单一向量的限制,让每一时刻,模型都能动态地看到全局信息,将注意力集中到对当前单词翻译的最重要的信息上。
但是RNN的顺序结构很不方便,难以并行运算,效率太低了。
Attention 注意力机制浅学_第10张图片
既然attention数据本身已经对去全部输入进行了打分,RNN中的顺序好像没啥用,还不如简化掉,这就是self-attention机制了。

sele-attention机制

去掉了刚才的输入的箭头,encoder编码阶段,利用attention机制计算每个单词与其他所有单词之间的关联,比如翻译games时,2022、beijing 、winter都较高的attention score。
Attention 注意力机制浅学_第11张图片
利用权重加权表示,再放到一个所谓的前馈神经网络中,得到新的表示,就很好地嵌入了上下文的信息。这样的步骤重复几次效果会更好。
Attention 注意力机制浅学_第12张图片

Attention 注意力机制浅学_第13张图片

decoder

decoder也是类似的,不仅要看之前产生的输出,而且还看encoder得到的输出。
换句话说你在别人心中的印象,不仅受制于你今天的打扮,这个encoder。还来自于他以前对你的印象。
Attention 注意力机制浅学_第14张图片
人类的视觉系统就是一种atterntion机制,他将有限的注意力集中在重点信息上,从而节省资源,获得最有效的信息。attention最早在计算机视觉领域应用,但是真正是在NLP领域。
2017年谷歌的transfoemer算法横空出世,引发大家对attention机制的关注。
Attention 注意力机制浅学_第15张图片
Attention 注意力机制浅学_第16张图片
2018年BERT和GPT 算法效果出奇的好,进而让attention机制越发地走红。

总结Attention的三大优点

Attention 注意力机制浅学_第17张图片
Attention 注意力机制浅学_第18张图片

中心思想:通过加权求和,context上下文理解。

你可能感兴趣的