Titans + MIRAS：助力人工智能建立长期记忆 - Titans + MIRAS: Helping AI have long-term memory

Titans + MIRAS: Helping AI have long-term memory

Titans + MIRAS Helping AI have long-term memory.png

Titans 新架构和 MIRAS 理论框架，解决人工智能在处理超长上下文时的记忆问题。

核心背景与问题

目前的 Transformer 架构虽然在短期记忆（注意力机制）上表现出色，但随着输入内容长度的增加，其计算成本急剧上升，难以扩展到处理全文档或基因组分析等超长任务。

另一方面，线性 RNN 和状态空间模型（如 Mamba-2）虽然速度快，但通常将上下文压缩为固定大小，导致信息丢失。

解决方案：Titans 和 MIRAS

为了结合 RNN 的速度和 Transformer 的准确性，研究团队提出了两个核心概念：

Titans 架构（工具）：
- 深度长期记忆：Titans 不像传统 RNN 那样使用固定大小的向量，而是引入了一个作为深度神经网络（多层感知机）运作的长期记忆模块。这使得模型能够存储更多信息并理解整体叙事。
- 实时学习（Test-time memorization）：模型在运行时能根据输入流实时更新其核心记忆参数，无需离线重新训练。
- “惊喜度”指标 (Surprise Metric)：这是 Titans 决定记住什么的关键机制。模型通过计算梯度来衡量新输入与其当前记忆的差异（即“惊喜”程度）。
  - 低惊喜：如果是预料之中的信息（如在提到动物的语境中出现“猫”），模型会忽略，不更新长期记忆。
  - 高惊喜：如果是意外或异常信息（如在财务报告中出现“香蕉皮”），模型会优先将其更新到长期记忆中。
- 遗忘机制：通过自适应的权重衰减（weight decay）来丢弃不再需要的信息。
MIRAS 框架（蓝图）：
- 这是一个通用的序列建模理论框架，将 Transformer、RNN 等模型视为联想记忆模块的不同实现形式。
- 它定义了序列模型的四个设计选择：记忆架构、注意力偏差、保留门控和记忆算法。
- 利用 MIRAS，研究团队开发了三种新的变体模型（YAAD, MONETA, MEMORA），探索了超越传统均方误差（MSE）的优化方法，使模型对异常值更鲁棒或记忆更稳定。

关键成果

性能优越：Titans 在语言建模和常识推理任务中优于 Mamba-2、Transformer++ 等现有最先进模型。
超长上下文能力：在 BABILong 基准测试（需要在极长文档中进行推理）中，Titans 即使参数量远少于 GPT-4，性能却超越了 GPT-4。
规模扩展：Titans 证明了可以有效扩展到超过 200 万 token 的上下文窗口。
通用性：除了文本，该架构在基因组建模（DNA）和时间序列预测上也表现有效。