查看原文
其他

前沿重器[11] | 再谈attention机制

机智的叉烧 CS的陋室 2022-08-24
 

【前沿重器】


栏目主要给大家分享各种大厂、顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有


往期回顾

attention已经不是我第一次写了额(NLP.TM[26] | bert之我见-attention篇),但是感觉看了一些文章,还是有一些新的理解,所以自己还是想多写一次,一方面自己总结深化,另一方面是和大家分享一下我的理解心得。

em...这段是写完之后回来加的,脑子里想了很多东西但是感觉写的不是很长,不太清楚自己的想法有没有充分表达出来,如果没有,记得多去看看参考文献理解笑话下哈~

attention的理论解释

我们先来看attention一个颇具概括意义的公式之一:

这个公式也很好地解释了很多在初步看Attention的人所不明白的K、Q、V的意思,我也来说一个我的说法:

在这里的attention机制本质上就是一个查字典,给定一个query,要识别他的意思,就是要在库里面查他和库里面谁的意思最接近,库里面的内容就是一个个的Key,它对应的结果就是Value,极端的,他和库里面某个词的意思完全相同,即query和key完全相同,那他就去100%的Value的结果即可,那换个情况,他没有和库里面的key非常接近,只是和部分比较接近,那就是这个相似度归一化后走一个类似“全概率公式”的方法,把这个value做一个加权求和,完事。

这里比较模糊的概念,其实就只有similarity的衡量了。

attention的本质思考

继续回看这个公式:

它的本质其实很简单,就是一个加权求和的机制,而核心问题就在于这个similarity是怎么做的了。网络上比较流行的是这几种:

一般地,还会用一个softmax做一个归一化,让“加权求和”更像“加权求和”,说白了就是避免尺度上出现的问题。而这个所谓的“注意力”的体现,其实就是在这个加权上,我们可以这么理解,权重大的就是“被关注的”位置,权重小的就是“不被关注”的位置,细化之后就是query和source的内部元素之间的重要性分析。

OK,进一步,在transformer里面就有提到了更为直接的方式——self-attention,就更好理解了,就是query和他自己本身的内部元素之间的重要性分析,可视化后就是这样:


这张图其实就能体现出来attention有一定的指代功能,他能体现句子内元素的依赖关系,这也是为什么attention能在机器翻译成长壮大和核心原因,而self-attention本质上就构造或者说挖掘了一种局内的依赖关系和映射关系,而对外,本质上就是一个“term weighting”,即词权重,后续接上对应的weight,还能去做很多下游的工作。

这个角度看,self-attention只要求Q和K相同,对V是否相同好像也没那么重要了?再进一步,Q和K不见得要完全相同,还可能可以是同一个query的不同表征?不知道会不会大胆,但是可以说的是,一定是不需要局限在一些现有框架的东西。

再进一步,这个similarity是否真的要是similarity?能不能是一个对输入的表征,这个表征是通过其他计算出来的,是不是也可以?

attention的研究进展

近期邱锡鹏老师团队发表了一篇对Transformer进行综述的论文,比较全面地对当前地各种transformer的优化进行了总结(变形金刚的各种变形状态?),这些改进的核心目标都集中在两点:复杂性和结构先验问题,改进的思路可以总结为下面6个点,篇幅有限且有很多东西会和其他的文章重复,此处只是列举和简单描述,不再赘述:

  • 稀疏注意力。从两两匹配的二部图弱化为特定规则的注意力比对形式。
  • 线性化注意力。用K和V的外积维护内存矩阵人后对Q进行归一化后相乘。
  • 原型和内存压缩。通过降维等方式转化Q或K再来比对。
  • 低秩注意力。使用低秩的矩阵近似表示注意力矩阵。
  • 先验注意力。通过一些预先得到的分布来补充注意力矩阵。这块自己看的论文比较多,类似lite transformer之类的就是加了个CNN的先验分布。
  • 改进多头机制。多头信息交互、限制注意力范围、对多头信息的精细化聚合等。

这里的总结非常有限,非常推荐大家去看邱锡鹏老师团队的文章,就是要六月份发的,没多久:https://arxiv.org/abs/2106.04554。

比较策略的串讲,只是为了去谈一个事情,就是展开对注意力机制的理解。

  • 多去看看实际输出的注意力分布是什么样的,可以看到研究者们注意到了低秩、稀疏的问题,也发现了可以发现一些先验的结构,如band、block local等是真的非常常见的。
  • 查看transformer真正的性能问题在哪,如何在减少损失的情况下尽可能压缩。
  • 多头注意力的同质化现象如何避免,如何让每个头注意点的多样性提升,而又如何让这种多样性更好地协同?

同时,值得我们思考的是,注意力机制还有很多问题,急需很多更新的结构来优化注意力,甚至是有没有什么方法能替代注意力。

参考文献

  • 张俊林-深度学习中的注意力模型(2017版),https://zhuanlan.zhihu.com/p/37601161
  • A Survey of Transformers:https://arxiv.org/abs/2106.04554
  • A Survey of Transformers论文解读:https://zhuanlan.zhihu.com/p/379510627



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存