这篇论文涵盖了当下LLM的诸多要素,即便到了十年后的今日,它或许依旧值得去阅读。
2017年发布的Transformer论文,即「Attention is all you need」,其被引量已超过17万,成为了这轮AI技术革命的标志性论文。
来自 Jeff Dean 的演讲幻灯片
与此同时,它还掩盖了一些论文的光芒,例如2015年发布的「End-To-End Memory Networks」 。
论文的第一作者是Sainbayar Sukhbaatar,他是Meta研究科学家,在最近的一则推文中表示,回顾过去,这篇论文包含了当前大型语言模型的许多要素 。我们的模型是首个语言模型,它完全用注意力机制替代了RNN,它引入了带键值投影的点积软注意力机制,它堆叠了多层注意力,这使得模型能关注输入的不同部分,它还引入了位置嵌入,目的是解决注意力机制中的顺序不变性问题……
这篇论文比《Attention is all you need》早两年问世,然而它并未获得应有的关注,其被引量仅3000多 。
作者提到,这篇论文是对Facebook AI研究院2014年的一篇名为「Memory Networks」的论文的改进 ,「Memory Networks」引入了多层堆叠的硬注意力机制 ,硬注意力机制与Bahdanau等人在单层上引入软注意力是同期提出的 。
去年,AI 大牛 Andrej Karpathy 在一个帖子中感叹,Bahdanau 等人有一项工作,即「Neural Machine Translation by Jointly Learning to Align and Translate」,该工作在单层上引入了软注意力,这才是真正引入注意力机制的论文,且这篇论文最近拿到了 ICLR 2025 时间检验奖的亚军,然而,「Attention is all you need」受到的关注却是它的 100 多倍 。不过,他也承认,《Attention is all you need》这篇论文具有独特之处 。
回到文章开头提到的“端到端记忆网络”,它实际上是把“记忆网络”与“通过联合学习对齐和翻译进行神经机器翻译”的想法结合起来,并且展示出多层软注意力能够产生复杂的推理能力,这是当今人工智能架构最重要的方面之一。
除了核心创新之外,一作 Sainbayar Sukhbaatar 分享了这篇论文诞生背后的故事,还介绍了他们目前正在推进的新工作。
一篇被 Transformer 光芒掩盖的论文
Sainbayar Sukhbaatar回忆,他们对「End-to-End Memory Networks」的研究始于2014年春天,那时他正处于博士二年级,还在FAIR实习,其导师Rob Fergus敦促他开展关于记忆的研究。不过,那会儿的他还不理解记忆意味着什么,因为那是一个由循环网络和卷积网络主导的世界,在那个世界里,记忆不像今天这样是一个重要的流行词 。
不过,他的研究无需从头开展。当时,Facebook AI 研究院的 Jason Weston 等人已做出「Memory Networks」,还发布了一套名为 bAbI 的任务,这些任务致使循环模型惨败,原因是这些任务需以无序方式查找多个事实,而这正是 RNN 的致命弱点。
这个与「记忆」有关的项目,一开始吸引了众多人的目光,然而事情的发展并不顺遂。
最终,他们开始进行记忆网络的进一步研究,其目标是让记忆网络学会关注的地方,且无需给定标签,他们决定运用强化学习训练,以此教会记忆网络关注何处。
时间快速推进到2014 - 2015年的冬天,那时他们已然完成了强化学习代码,并且打算在语言模型任务方面与基准展开比较。一个明显的选择是「Neural Machine Translation by Jointly Learning to Align and Translate」中所采用的软注意力机制,Sainbayar Sukhbaatar等人在研究里将其应用于多层结构中,在此之前没有人做过这样的事。所以他们把它当作基线来实现,不过做了一些改动,像是用点积来计算注意力,而不是使用小型多层感知器。让人惊喜的是,采用这种软注意力的记忆网络效果好得出奇,他们立刻就意识到这就是正确的方向。
在此之后,事情开始迅速发展,在 Arthur Szlam(另一位作者)的坚持下,团队开始将 bAbI 任务用作基准,他们研发了几种新技术,比如为键和值采用不同的投影等,他们还需解决注意力的顺序不变性问题,于是添加了时间嵌入(如今称作位置嵌入)。
Jason提议在这些时间值里增添随机噪声,以此来降低过拟合。最终,他们作出决定,要开展一项当时并不流行的语言建模任务。令人惊讶的是,他们仅运用注意力,没有借助任何时间循环,就打败了长短期记忆网络。在论文里,他们用“循环”一词来形容重复的层,也就是像通用变换器那样共享权重 。
他们在NeurIPS提交论文的最后一天,完成了大部分论文的撰写。有意思的是,它一开始被称作「弱监督记忆网络」,这是由于它所需的监督较少 。
不管怎样,那个阶段是新架构的黄金时期,有新论文出现,比如Neural GPU、Stack RNN以及Neural Turing Machine 。
回顾10年后的当下以及当前大型语言模型的状况,Sainbayar Sukhbaatar觉得他们在论文里准确预见到了几点,他们的模型是首个不依赖循环的基于注意力的语言模型,他们成功堆叠了多层注意力,能让模型在输出下一个词元前关注上下文的不同部分。他们使用了位置嵌入,甚至使用了相对位置嵌入,这如今已成为大型语言模型的标准做法 。
这篇论文虽未像《Attention is all you need》那般引发轰动,却也发挥了一定作用。有人称自己多次研读此论文,试图弄明白为何某种神经架构会有效。
Sainbayar Sukhbaatar承认,Transformer确实做出了重要改进,例如将前一层的隐藏状态用作下一层的记忆,还有前馈层、多头注意力等 。
他觉得,即便已经过去了十年,架构改进方面的工作依然存在许多需要去做的。因此,前段时间,他们发表了一篇名为「Multi-Token Attention」(MTA)的新论文。
MTA在多个查询上调节注意力,在多个键上调节注意力,在多个头上调节注意力,在许多指标上都比标准软注意力更具优势。特别是,它能更好地解决长上下文问题,比如「大海捞针」类任务。有趣的是,2015年「记忆网络」论文的结论中就已将这一点作为未来工作提出:「平滑查找可能无法很好地扩展到需要更大记忆的情况」,而这正是该领域如今仍在研究的问题。
参考链接:
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/275787.html