2017年Transformer论文成AI革命标志，2015年相关论文要素被掩盖？-模具钢网

这篇论文涵盖了当下LLM的诸多要素，即便到了十年后的今日，它或许依旧值得去阅读。

2017年发布的Transformer论文，即「Attention is all you need」，其被引量已超过17万，成为了这轮AI技术革命的标志性论文。

来自 Jeff Dean 的演讲幻灯片

与此同时，它还掩盖了一些论文的光芒，例如2015年发布的「End-To-End Memory Networks」。

论文的第一作者是Sainbayar Sukhbaatar，他是Meta研究科学家，在最近的一则推文中表示，回顾过去，这篇论文包含了当前大型语言模型的许多要素。我们的模型是首个语言模型，它完全用注意力机制替代了RNN，它引入了带键值投影的点积软注意力机制，它堆叠了多层注意力，这使得模型能关注输入的不同部分，它还引入了位置嵌入，目的是解决注意力机制中的顺序不变性问题……

这篇论文比《Attention is all you need》早两年问世，然而它并未获得应有的关注，其被引量仅3000多。

作者提到，这篇论文是对Facebook AI研究院2014年的一篇名为「Memory Networks」的论文的改进，「Memory Networks」引入了多层堆叠的硬注意力机制，硬注意力机制与Bahdanau等人在单层上引入软注意力是同期提出的。

去年，AI 大牛 Andrej Karpathy 在一个帖子中感叹，Bahdanau 等人有一项工作，即「Neural Machine Translation by Jointly Learning to Align and Translate」，该工作在单层上引入了软注意力，这才是真正引入注意力机制的论文，且这篇论文最近拿到了 ICLR 2025 时间检验奖的亚军，然而，「Attention is all you need」受到的关注却是它的 100 多倍。不过，他也承认，《Attention is all you need》这篇论文具有独特之处。

回到文章开头提到的“端到端记忆网络”，它实际上是把“记忆网络”与“通过联合学习对齐和翻译进行神经机器翻译”的想法结合起来，并且展示出多层软注意力能够产生复杂的推理能力，这是当今人工智能架构最重要的方面之一。

除了核心创新之外，一作 Sainbayar Sukhbaatar 分享了这篇论文诞生背后的故事，还介绍了他们目前正在推进的新工作。

一篇被 Transformer 光芒掩盖的论文

Sainbayar Sukhbaatar回忆，他们对「End-to-End Memory Networks」的研究始于2014年春天，那时他正处于博士二年级，还在FAIR实习，其导师Rob Fergus敦促他开展关于记忆的研究。不过，那会儿的他还不理解记忆意味着什么，因为那是一个由循环网络和卷积网络主导的世界，在那个世界里，记忆不像今天这样是一个重要的流行词。

不过，他的研究无需从头开展。当时，Facebook AI 研究院的 Jason Weston 等人已做出「Memory Networks」，还发布了一套名为 bAbI 的任务，这些任务致使循环模型惨败，原因是这些任务需以无序方式查找多个事实，而这正是 RNN 的致命弱点。

这个与「记忆」有关的项目，一开始吸引了众多人的目光，然而事情的发展并不顺遂。

最终，他们开始进行记忆网络的进一步研究，其目标是让记忆网络学会关注的地方，且无需给定标签，他们决定运用强化学习训练，以此教会记忆网络关注何处。

时间快速推进到2014 - 2015年的冬天，那时他们已然完成了强化学习代码，并且打算在语言模型任务方面与基准展开比较。一个明显的选择是「Neural Machine Translation by Jointly Learning to Align and Translate」中所采用的软注意力机制，Sainbayar Sukhbaatar等人在研究里将其应用于多层结构中，在此之前没有人做过这样的事。所以他们把它当作基线来实现，不过做了一些改动，像是用点积来计算注意力，而不是使用小型多层感知器。让人惊喜的是，采用这种软注意力的记忆网络效果好得出奇，他们立刻就意识到这就是正确的方向。

在此之后，事情开始迅速发展，在 Arthur Szlam（另一位作者）的坚持下，团队开始将 bAbI 任务用作基准，他们研发了几种新技术，比如为键和值采用不同的投影等，他们还需解决注意力的顺序不变性问题，于是添加了时间嵌入（如今称作位置嵌入）。

Jason提议在这些时间值里增添随机噪声，以此来降低过拟合。最终，他们作出决定，要开展一项当时并不流行的语言建模任务。令人惊讶的是，他们仅运用注意力，没有借助任何时间循环，就打败了长短期记忆网络。在论文里，他们用“循环”一词来形容重复的层，也就是像通用变换器那样共享权重。

他们在NeurIPS提交论文的最后一天，完成了大部分论文的撰写。有意思的是，它一开始被称作「弱监督记忆网络」，这是由于它所需的监督较少。

不管怎样，那个阶段是新架构的黄金时期，有新论文出现，比如Neural GPU、Stack RNN以及Neural Turing Machine 。

回顾10年后的当下以及当前大型语言模型的状况，Sainbayar Sukhbaatar觉得他们在论文里准确预见到了几点，他们的模型是首个不依赖循环的基于注意力的语言模型，他们成功堆叠了多层注意力，能让模型在输出下一个词元前关注上下文的不同部分。他们使用了位置嵌入，甚至使用了相对位置嵌入，这如今已成为大型语言模型的标准做法。

这篇论文虽未像《Attention is all you need》那般引发轰动，却也发挥了一定作用。有人称自己多次研读此论文，试图弄明白为何某种神经架构会有效。

Sainbayar Sukhbaatar承认，Transformer确实做出了重要改进，例如将前一层的隐藏状态用作下一层的记忆，还有前馈层、多头注意力等。

他觉得，即便已经过去了十年，架构改进方面的工作依然存在许多需要去做的。因此，前段时间，他们发表了一篇名为「Multi-Token Attention」（MTA）的新论文。

MTA在多个查询上调节注意力，在多个键上调节注意力，在多个头上调节注意力，在许多指标上都比标准软注意力更具优势。特别是，它能更好地解决长上下文问题，比如「大海捞针」类任务。有趣的是，2015年「记忆网络」论文的结论中就已将这一点作为未来工作提出：「平滑查找可能无法很好地扩展到需要更大记忆的情况」，而这正是该领域如今仍在研究的问题。

参考链接：

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://www.mjgaz.cn/fenxiang/275787.html

2017年Transformer论文成AI革命标志，2015年相关论文要素被掩盖？

相关推荐

联系我们