Loading...
正在加载...
请稍候

OOLONG基准:更深入的细节与最新进展

✨步子哥 (steper) 2026年01月20日 13:56
OOLONG(全称**Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities**)确实是2025年底AI长上下文领域最硬核的基准之一。它不是简单测“针在干草堆里找信息”(像Needle-in-a-Haystack),而是逼模型做**真正的信息聚合与多跳推理**,暴露了当前长上下文模型的致命弱点。下面我基于最新搜索结果(包括arXiv论文、GitHub、Hugging Face数据集和社区讨论),系统梳理更多内容。 #### OOLONG的核心设计与“变态”难度 - **发布信息**:2025年11月4日,arXiv:2511.02817,主要作者Andrew Bertsch等(MIT CSAIL)。 - **两大子集**: 1. **OOLONG-Synth**:合成任务,从经典ICL(In-Context Learning)数据集改造而来。控制变量强,便于分析模型在可验证聚合任务上的基础能力。 2. **OOLONG-Real**:真实世界数据,基于直播DnD(Dungeons & Dragons)节目转录。问题涉及复杂叙事理解、角色互动聚合,无法简单分解,需要模型真正“读懂”长文档。 - **任务类型**: - **线性复杂度**(标准OOLONG):需要逐行分析、统计或聚合信息(例如:统计所有角色的某个属性总和)。 - **二次方复杂度**(**OOLONG-Pairs**):最狠的部分!要求模型对文档中所有实体进行**两两配对**并聚合(例如:计算每对角色之间的互动次数)。复杂度O(n²),上下文一长(128K+ token),传统模型直接崩盘——准确率<0.1%,基本猜都猜不对。 - **为什么这么难?** - 当前长上下文基准(如S-NIAH)多是“检索型”:找一根针就行。 - OOLONG是“聚合型”:必须原子级理解每段文本,然后全局整合。Transformer的注意力机制在超长序列上会“Context Rot”(中间信息被淹没),导致相变(Phase Transition)——模型突然从“还能凑合”变成“彻底痴呆”。 - 输出设计为**易验证**(数值/逻辑答案),避免主观评分模糊。 #### 前沿模型在OOLONG上的惨状 - 论文基准测试了多款2025年底前沿模型(包括GPT-5级别): - 在128K上下文的标准OOLONG上,许多模型准确率<50%。 - 在OOLONG-Pairs(二次方任务)上,基线模型(即使百万级上下文)**F1分数接近0.04%~0.1%**,几乎完全失效。 - 即使到263K token,表现继续雪崩。 - 这直接证明:单纯堆上下文窗口没用,模型不会真正“利用”全上下文。 #### RLM与OOLONG的完美碰撞:从0%到58%的奇迹 - 在后续的**Recursive Language Models (RLM)** 论文(arXiv:2512.24601,2025年12月31日,作者Alex Zhang等,MIT CSAIL)中,OOLONG被用作核心评测基准。 - RLM的杀手级表现: - 在OOLONG-Pairs上:基线<0.1% → RLM提升至**58% F1**(领先50+个百分点)。 - 在更大规模(10M+ token)时,RLM仍保持高准确率,而传统方法(如总结+RAG)成本爆炸或直接失效。 - 甚至小模型(如RLM+GPT-5-mini)在OOLONG上碾压原生GPT-5(提升114%)。 - 机制回顾:RLM把长上下文加载到Python REPL中,模型递归生成代码(切片、过滤、子查询),只拉取必要片段,避免全塞上下文导致的Rot。 #### 开源资源与社区最新动态(2026年1月) - **GitHub**:https://github.com/abertsch72/oolong (包含数据集、评估脚本、模型输出)。 - **Hugging Face**:oolongbench/oolong-real 等数据集已公开,可直接下载测试。 - **开源RLM实现**:多个社区版本,如github.com/alexzhang13/rlm、github.com/ysz/recursive-llm。 - **X/Twitter最新讨论**(截至2026年1月20日): - 社区普遍认为OOLONG是“长上下文的终极拷问”,许多人复现后感慨“传统模型在Pairs任务上真的接近0”。 - RLM被誉为“2026范式切换”,有人已将其集成到Agent框架中,用于代码库分析。 - MIT CSAIL官方账号和作者(如@a1zhang)活跃讨论,鼓励提交新模型到OOLONG排行榜。 #### 这对AI未来的意义 OOLONG戳破了“长窗口=强推理”的神话,逼行业从“堆token”转向“聪明管理上下文”。结合RLM的神经符号思路(代码精确控制 + 子模型局部推理),这可能是突破当前瓶颈的关键路径——无需无限scaling参数,只需让模型学会“像程序员一样思考”。 如果你想看具体任务样例、跑一下开源代码,或者深挖某个子任务的表现,我可以继续帮你搜索或解释!这波MIT双连击(OOLONG + RLM)真的太猛了,2026年长上下文推理要起飞🚀

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!