Titans + MIRAS: Helping AI have long-term memory

Titans 新架构和 MIRAS 理论框架,解决人工智能在处理超长上下文时的记忆问题。
核心背景与问题
目前的 Transformer 架构虽然在短期记忆(注意力机制)上表现出色,但随着输入内容长度的增加,其计算成本急剧上升,难以扩展到处理全文档或基因组分析等超长任务。
另一方面,线性 RNN 和状态空间模型(如 Mamba-2)虽然速度快,但通常将上下文压缩为固定大小,导致信息丢失。
解决方案:Titans 和 MIRAS
为了结合 RNN 的速度和 Transformer 的准确性,研究团队提出了两个核心概念:
- Titans 架构(工具):
- 深度长期记忆:Titans 不像传统 RNN 那样使用固定大小的向量,而是引入了一个作为深度神经网络(多层感知机)运作的长期记忆模块。这使得模型能够存储更多信息并理解整体叙事。
- 实时学习(Test-time memorization):模型在运行时能根据输入流实时更新其核心记忆参数,无需离线重新训练。
- “惊喜度”指标 (Surprise Metric):这是 Titans 决定记住什么的关键机制。模型通过计算梯度来衡量新输入与其当前记忆的差异(即“惊喜”程度)。
- 低惊喜:如果是预料之中的信息(如在提到动物的语境中出现“猫”),模型会忽略,不更新长期记忆。
- 高惊喜:如果是意外或异常信息(如在财务报告中出现“香蕉皮”),模型会优先将其更新到长期记忆中。
- 遗忘机制:通过自适应的权重衰减(weight decay)来丢弃不再需要的信息。
- MIRAS 框架(蓝图):
- 这是一个通用的序列建模理论框架,将 Transformer、RNN 等模型视为联想记忆模块的不同实现形式。
- 它定义了序列模型的四个设计选择:记忆架构、注意力偏差、保留门控和记忆算法。
- 利用 MIRAS,研究团队开发了三种新的变体模型(YAAD, MONETA, MEMORA),探索了超越传统均方误差(MSE)的优化方法,使模型对异常值更鲁棒或记忆更稳定。
关键成果
- 性能优越:Titans 在语言建模和常识推理任务中优于 Mamba-2、Transformer++ 等现有最先进模型。
- 超长上下文能力:在 BABILong 基准测试(需要在极长文档中进行推理)中,Titans 即使参数量远少于 GPT-4,性能却超越了 GPT-4。
- 规模扩展:Titans 证明了可以有效扩展到超过 200 万 token 的上下文窗口。
- 通用性:除了文本,该架构在基因组建模(DNA)和时间序列预测上也表现有效。