- Transformer技术随文本量增加速度变慢、成本升高,计算复杂度呈二次增长
- 现有AI(ChatGPT、Claude、Gemini)在长对话或处理长文本时易遗忘
- 这是长期存在的基础限制,阻碍AGI发展
Google's Titans & MIRAS
突破AI长期记忆瓶颈,迈向AGI新纪元
Titans & MIRAS:AI记忆系统的革命性突破
memory 当前AI的内存限制
psychology Titans架构:类人脑的三层记忆系统
短期记忆(核心)
处理当前任务,类似人脑短期记忆,基于注意力机制
长期记忆
存储历史信息,能在运行时学习和更新,使用"惊喜指标"决定存储内容
持久记忆
训练时固化的知识,类似人脑元记忆,保持稳定不变
MAC架构:将记忆作为上下文,实现超过200万token的上下文窗口
schema MIRAS:统一序列模型的理论框架
揭示所有主要AI架构(Transformer、RNN、Mamba等)本质相同,为设计更好的内存系统打开大门
内存架构
信息存储方式(向量、矩阵、MLP)
注意力偏差
模型优化的内部学习目标,决定优先关注的内容
保留门控
平衡"学习新知识"与"保留旧记忆"的遗忘机制
记忆算法
更新记忆状态的优化算法
创新点:引入非欧几里得目标函数,允许更复杂的数学惩罚机制
analytics 性能验证:超越现有模型
- 在长序列上困惑度低(性能好),对比Mamba,深度记忆架构在不同参数规模下均保持优势
- 在Babai Long任务(超长文档事实问答)中表现优异
- 即使模型更小(参数少、成本低),在长序列上仍保持高准确率
- 对比GPT-4、Mamba等模型有显著优势,特别是在处理超长上下文时
apps 实际应用场景与AGI意义
- 法律文档分析:处理超长法律文件
- 医疗记录管理:整合长期患者数据
- 科研论文理解:分析跨论文概念联系
- 代码库维护:理解大型代码项目
- 个人助理:记住用户长期偏好和历史
- AGI意义:实现类人脑记忆系统,开启之前不可能的应用
lightbulb 结论:迈向AGI的重要一步
- Titans和MIRAS解决了AI长期记忆的根本问题
- 实现了测试时学习,模型能在使用过程中不断进化
- 为AGI发展提供了新的技术路径
- Google再次引领AI架构创新,超越自身创造的Transformer