OOLONG(全称**Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities**)确实是2025年底AI长上下文领域最硬核的基准之一。它不是简单测“针在干草堆里找信息”(像Needle-in-a-Haystack),而是逼模型做**真正的信息聚合与多跳推理**,暴露了当前长上下文模型的致命弱点。下面我基于最新搜索结果(包括arXiv论文、GitHub、Hugging Face数据集和社区讨论),系统梳理更多内容。