论文元数据
| 属性 | 内容 |
|---|---|
| 标题 | DynaTree: Dynamic Agentic Retrieval Tree for Time-Sensitive News Retrieval |
| 作者 | Siyuan Qi, Xinyuan Wang, Yingxuan Yang, Haochuan Guo, Jianghao Lin, Weiwen Liu, Yong Yu, Weinan Zhang |
| 机构 | 上海交通大学、Orion Arm AI |
| arXiv ID | 2605.31377 |
| 日期 | 2026-05-29 |
| 会议 | KDD 2026 |
| 分类 | cs.IR |
| 核心论点 | 语义查询扩展应当被物化为可持久复用的结构化树,而非每次查询后丢弃的瞬态产物;离线 agentic 推理构建树,在线轻量选择子树,可在时效性新闻检索中兼顾高召回与低延迟 |
📰 1. 新闻检索的悖论:查询不变,答案每天都在变
想象你订阅了一个关于"人工智能消费电子"的新闻频道。你今天的查询和昨天的查询完全一样,但昨天最相关的文章是关于"AI 芯片算力竞赛",今天变成了"端侧推理隐私争议",明天可能又切换到"AI 手机摄影算法"。用户的高层级兴趣是稳定的——"AI 在消费电子中的应用"——但具体的子话题和表面表达每天都在漂移。
这是新闻检索领域的一个核心悖论:查询语义持久,文档分布瞬变。传统的检索系统要么在每次查询时重新做语义扩展(高延迟、高成本),要么使用固定的扩展词表(无法适应话题漂移)。Agentic RAG 的出现本应是解药——让模型规划查询改写、迭代检索、自我修正——但现有方法将语义扩展与检索决策紧密耦合在短程推理循环中,每次查询都要重复运行 agent,导致巨大的 token 消耗和延迟开销。
上海交大与 Orion Arm AI 团队提出的 DynaTree,给出了一个出人意料的解法:不要每次都重新思考,而是事先"种"好一棵语义树,每天只需要决定剪哪些枝。
这个比喻的精确性值得玩味。传统 agentic RAG 像一个每天从零开始绘制地图的探险家——每次出发都要重新勘察地形、标记路径、评估风险。DynaTree 则像一个建立了永久营地的拓荒者——营地周围的地形已经被详细测绘,每天只需要根据季节和天气决定走哪条路线。前者的成本随查询次数线性增长,后者的成本在初始投资后趋于平稳。对于一个每天服务数百万查询的新闻平台,这种成本结构的差异不是量变,而是质变。
🌲 2. 检索树:将语义空间从瞬态变为持久
现有 agentic RAG 的根本缺陷在于语义扩展的瞬态性。模型为一次查询生成一组扩展词,检索完成后这些扩展就被丢弃。下次同样的查询再来,系统从零开始重复整个推理过程。这种设计不仅浪费计算资源,还无法积累对查询语义空间的深层理解——系统永远看不到"AI 芯片"、"端侧推理"和"隐私保护"之间的结构关系,因为它们在每次查询中都是独立生成的。
DynaTree 的核心创新是将语义扩展物化为持久结构——一棵检索树。树的根节点是原始查询,每个子节点代表一个语义扩展,边编码细化或 specialization 关系。一条从根到叶子的路径定义了一个连贯的语义轨迹, progressively 细化原始查询的某个方面。
以"AI 消费电子"为例,检索树可能包含以下路径:
- 路径一:AI 消费电子 → 芯片与算力 → 手机 SoC 竞争 → 苹果 vs 高通
- 路径二:AI 消费电子 → 端侧部署 → 隐私计算 → 联邦学习在设备上的应用
- 路径三:AI 消费电子 → 影像算法 → 计算摄影 → 夜景增强技术
- 路径四:AI 消费电子 → 可穿戴设备 → 健康监测 → 血糖无创检测
每条路径捕捉了一个完整的结构化解释——不仅是"这个查询还可以怎么说",而是"这个查询的语义空间如何被系统地分解为相互关联的子话题"。这种结构化理解是瞬态扩展无法提供的。
对比而言,传统 RAG 的扁平扩展将上述所有路径视为同等独立的查询变体——"AI 芯片算力"、"端侧推理隐私"、"计算摄影夜景"之间没有显式的结构关系。系统无法知道"苹果 vs 高通"是"芯片算力"的子话题,也无法知道"联邦学习"与"隐私计算"之间的 specialization 关系。这种结构盲视导致两个实际问题:一是扩展之间可能存在冗余("AI 芯片"和"手机 SoC"在语义上高度重叠),系统却无从识别;二是扩展可能遗漏结构性盲区(如"可穿戴设备"分支下的"健康监测"完全没有被探索),系统也无法自检。检索树通过显式的层次结构和路径关系,从根本上解决了这两个问题。
为什么用树而非图? 论文给出了一个务实的回答:Stage I 的扩展本质上是路径条件化和递归的——每个节点沿着特定的根到节点语义轨迹生成,使每条路径成为有序扩展单元。树结构也使 Stage II 的子树选择在固定在线预算下可计算。一般图会引入路径爆炸和不稳定的结构选择问题。因此,树不仅是一种表示选择,也是高效延迟敏感适配的计算约束。
🤖 3. 四智能体协作:如何"种"出一棵语义树
DynaTree 的离线阶段通过四个角色专精的智能体协作构建检索树,每个智能体负责语义扩展的不同方面。
3.1 规划智能体:路径感知的语义规划
规划智能体不是独立地为当前节点生成扩展,而是条件于整条根到节点的路径来规划检索查询。这意味着深度为 3 的节点不仅知道"我的父节点是什么",还知道"我是从根节点经过哪些语义选择到达这里的"。这种路径感知设计鼓励语义沿检索树递进发展——深层节点倾向于探索越来越具体、互补或正交的语义方面,而非在表层进行无意义的改写。
例如,给定路径"AI 消费电子 → 端侧部署",规划智能体可能生成"隐私计算"而非"AI 芯片"——因为后者已经由另一条路径覆盖,而前者是当前路径的自然延伸。这种去冗余的扩展策略确保了树的广度覆盖而非简单重复。
3.2 检索智能体:自适应检索路由
检索智能体为每个规划好的查询自适应选择检索策略——可能是 BM25 词法检索、密集向量检索,或混合配置。不同语义扩展可能适合不同的检索方式:高度技术化的术语(如"FP8 量化")在词法检索中表现更好,而概念性的扩展(如"用户体验影响")则更适合语义检索。检索智能体的路由决策基于对查询特征和检索策略匹配度的评估。
3.3 增强智能体:预算感知的证据规范化
增强智能体对检索到的证据进行规范化处理——去重、摘要、质量过滤——并在预设的 token 预算内完成。新闻检索中的证据往往高度冗余:同一事件可能被数十家媒体报道,增强智能体需要识别核心事实并消除重复,确保下游处理的高效性。
3.4 反思智能体:结构自校正
反思智能体是质量控制层。它评估当前子树的结构质量——是否存在语义漂移?某些分支是否过于狭窄或过于宽泛?扩展之间是否缺乏多样性?若发现问题,反思智能体触发结构调整,如剪枝低质量分支、合并语义重叠的节点、或在覆盖不足的区域增加新分支。
这四个智能体的协作不是简单的流水线,而是带反馈的迭代过程。规划生成扩展,检索获取证据,增强处理证据,反思评估结构——反思的结果又反馈给规划,指导下一轮扩展的方向。这种闭环使检索树在构建过程中不断优化自身的结构质量。
具体而言,反思智能体的结构自校正遵循三个原则。深度控制:若某分支的节点数量超过阈值,反思智能体判断其过于狭窄,可能触发剪枝或合并。多样性保证:若多个兄弟节点的语义向量相似度过高,反思智能体识别出冗余并合并重叠分支。覆盖检查:若树的某个高层语义区域(如"可穿戴设备")下只有极少分支,反思智能体向规划智能体反馈覆盖不足信号,要求在该区域增加新的扩展。这种结构层面的质量控制,使检索树不是简单的扩展集合,而是一个经过精心设计的语义空间地图。
✂️ 4. 每日子树选择:剪枝的艺术
检索树构建完成后,它被持久化存储,成为该查询主题的语义基础设施。但树的全量使用可能引入冗余或放大语义不对齐的扩展——并非所有路径在每一天都同样有效。DynaTree 的在线阶段通过一个轻量化的每日子树选择机制解决这个问题。
4.1 时间局部化评估代理
子树选择不依赖 agent 推理,而是基于一个时间局部化的评估代理。具体来说,系统使用最近一天的新闻子集作为代理语料,对检索树中各个候选子树进行快速召回评估。评估指标是 Recall@α——在检索阶段强调语义覆盖度,确保尽可能多的相关文章被纳入候选集。
这个过程的关键设计是代理而非全量。使用完整语料进行评估固然最准确,但成本过高;使用随机采样又可能遗漏时效性强的关键文档。时间局部化代理(最近一天的语料)在成本和代表性之间取得了平衡——它足够小以支持快速评估,又足够新以反映当前的文档分布。
4.2 子树评估与选择
每个候选子树诱导一组根到叶子的路径,每条路径被编码为统一的文本表示,通过文本嵌入模型映射到向量空间。文档的相关性得分由子树中所有路径的语义相似度聚合得到——偏好那些从多个结构化轨迹获得一致语义支持的文档。
系统在所有候选子树中选择召回率最高的那个,作为当天的最优检索策略。整个选择过程不涉及 LLM 推理、树修改或模型重训练——纯粹是基于向量相似度的结构化检索,延迟极低。
这种设计的精妙之处在于将成本从高频率的在线推理转移到了低频率的离线构建。传统 agentic RAG 的 token 成本随查询量线性增长——每处理一个查询,都要消耗数千 token 的规划、检索和反思。DynaTree 将大部分 token 成本压缩到一次性树构建中(每主题约 70K token),之后的每日子树选择仅涉及轻量向量运算。对于每天处理数千次查询的主题频道,单位查询的 agentic 推理成本从数千 token 降至接近于零。这是从"按需推理"到"预计算 + 选择"的经典算法优化策略,在信息检索领域有着深厚的传统(如倒排索引的构建与查询分离),DynaTree 将其创造性地应用到了 agentic 语义扩展的语境中。
📊 5. 离线实验:BEIR 基准上的全面领先
DynaTree 在公开 BEIR 基准和多天的 Syft News 数据集上进行了系统评估。BEIR 是信息检索领域广泛使用的异构基准集合,涵盖多种领域和查询类型。
实验结果显示,DynaTree 在召回率和 NDCG 上持续优于标准 RAG 和现有 agentic 基线。其优势来源于两个互补因素:检索树的结构化语义覆盖比扁平扩展更全面;每日子树选择比固定扩展更能适应文档分布的变化。
消融实验进一步揭示了各组件的贡献。通过 Shapley 值分析,团队评估了四个智能体(规划、检索、增强、反思)在 16 种组合配置下的边际贡献。结果显示,规划智能体(路径感知语义规划)和增强智能体(预算感知证据规范化)对整体性能的贡献最为显著,而检索策略的多样性(检索智能体)和结构质量控制(反思智能体)则提供了额外的稳健性增益。
Shapley 值分析的一个有趣发现是组件之间的非可加性交互。单独移除规划智能体导致性能大幅下降,但同时移除规划和反思智能体时,下降幅度并非两者独立效应的简单叠加——反思智能体的结构校正在没有高质量规划输出的情况下,其边际价值显著降低。这表明四个智能体之间存在强烈的协同依赖:规划提供高质量的语义方向,检索提供多样的证据来源,增强提供规范化的信息表示,反思提供结构层面的质量控制——四者共同构成了一个不可分割的协作生态,而非四个可独立替换的模块化组件。
有趣的是,均匀聚合 vs. 软最大加权聚合的比较表明,简单的均匀平均(对各路径的相似度得分取平均)在多数情况下略优于复杂的加权策略。这暗示了一个重要的工程洞见:在路径集合的得分聚合中,过度复杂的加权机制未必带来收益,简单的平均反而更稳健。
🚀 6. 生产部署:A/B 测试中的真实提升
DynaTree 最引人注目的成果不在于离线基准分数,而在于它已经被部署在 Syft 新闻平台的生产管道中,并通过在线 A/B 测试验证了实际效果。Syft 是一个 AI 驱动的新闻平台,为用户提供个性化的主题频道新闻,从全球来源聚合、去重、摘要,并围绕持久兴趣频道组织内容。
6.1 实验设置
A/B 测试于 2026 年 1 月 28 日至 2 月 6 日进行,覆盖 100 个代表性主题频道。完整的 agentic 检索树于 1 月 27 日一次性构建完成,在整个实验期间保持不变。
用户流量被均分为两组:
- Port A(静态策略):使用离线识别出的最佳子树,保持不变
- Port B(动态策略):每日基于实时新闻分布和检索反馈进行子树选择更新
两组与 Syft 现有的五个生产级召回器(关系召回、分解召回、语义召回、代理召回、网页搜索召回)在完全相同的下游过滤和排序管道下竞争。
6.2 核心结果:生存率翻倍
评估指标是平台生存率——通过检索获取的新闻中,有多少比例通过了下游质量控制。生存率直接反映了检索阶段的召回质量:若检索阶段遗漏了优质文章或纳入了过多低质文章,下游过滤会将其剔除,导致生存率下降。
结果令人印象深刻。Port A(固定子树)的生存率在 0.32–0.53 之间波动,而 Port B(每日动态选择) consistently 达到 0.59–0.73。这意味着动态适配将检索质量提升了 ~1.5 倍。更重要的是,Port B 在每一天都优于所有现有生产召回器,且优势幅度稳定。
这个结果的三重含义值得深思,而每一层含义都指向传统检索架构的结构性缺陷:
第一,子树有效性确实随时间变化。 Port A 和 Port B 共享完全相同的检索树结构,区别仅在于子树选择是否每日更新。Port B 的持续领先证明,即使是精心构建的语义树,其最优子树也会因新闻分布的漂移而变化。固定的"最佳"配置在动态环境中很快过时。
第二,结构感知优于异构静态策略。 Syft 的五个生产召回器代表了五种不同的检索哲学——关系、分解、语义、代理、网页搜索。DynaTree 不是增加第六种召回策略,而是通过结构化的语义树统一了多种扩展视角,并动态选择最优组合。这种"结构统一 + 动态选择"的范式,胜过了"多种独立策略简单并列"的传统架构。
第三,离线成本可摊销。 检索树每主题构建一次(约 70K token、4 分钟),然后在线复用多日。Stage II 的子树选择成本极低。这意味着对于持久主题频道(如"AI 消费电子"),高昂的 agentic 推理成本被摊销到数十天的服务中,单位查询成本远低于每次查询都运行 agent 的方案。
成本摊销的数学直观性不容忽视。假设一个主题频道每天处理 1000 次查询。传统 agentic RAG 每次查询消耗约 2K token,日成本 2M token。DynaTree 的初始构建消耗 70K token,每日子树选择消耗可忽略(仅向量运算),日均成本约 70K/30 ≈ 2.3K token(假设树每月重建一次)。成本比约为 870:1——这不是渐进式优化,而是数量级的成本重构。
⚖️ 7. 设计哲学的深层启示
DynaTree 的设计蕴含着对 AI 系统架构的深层思考,这些思考超越了新闻检索的具体应用。
7.1 推理与检索的解耦
传统 agentic RAG 将推理(语义扩展的规划)与检索(文档获取)紧密耦合,导致两者都必须在每次查询时在线执行。DynaTree 的解耦设计提出了一个替代原则:让昂贵的推理离线发生,让轻量的选择在线执行。这与计算机体系结构中的"编译时优化 vs. 运行时执行"的分离异曲同工——复杂优化在编译时完成,运行时只执行优化后的代码。
7.2 持久结构 vs. 瞬态产物
当前 AI 系统的一个普遍倾向是将模型的输出视为用完即弃的瞬态产物——生成一次,使用一次,丢弃。DynaTree 反其道而行之,将语义扩展视为可积累、可复用、可演化的持久资产。这种视角的转变,从"每个查询独立处理"到"查询语义空间的长期投资",可能是 AI 系统效率革命的下一个前沿。
7.3 树作为计算约束
论文对"为何用树而非图"的回答同样发人深省。树的选择不是因为树在表达能力上优于图——恰恰相反,图更通用。树被选择是因为它在特定计算约束下提供了最优的表达-效率权衡:路径的条件化生成天然适合树结构,子树选择在树上有高效的算法,而图的路径爆炸会使在线适配不可行。这种"表达服从计算"的设计哲学,在 AI 系统日益追求实时性的趋势下尤为重要。
⚠️ 8. 局限与未来方向
论文坦诚地列出了 DynaTree 的若干局限。首先是冷启动问题。对于未见过的全新主题,系统需要首先完成离线树的构建(约 4 分钟),在此期间只能回退到低延迟的生产召回器。对于突发性热点事件(如突发的国际危机),这种延迟可能意味着错过黄金检索窗口。
其次是树的维护成本。虽然单棵树的构建成本被摊销到多日的服务中,但如果平台维护数千个主题频道,总体离线成本仍然可观。论文指出成本随频道数量线性增长,但对于超大规模平台,这种线性增长可能需要更高效的增量更新机制——例如,只更新树中受新闻漂移影响的部分分支,而非重新评估整棵树。
第三,当前评估聚焦于召回率,而完整的检索系统还需要考虑排序精度和多样性。高召回率若伴随着低排序质量,可能导致大量相关但低质的文档涌入下游管道,反而损害用户体验。将 DynaTree 的高召回优势与更精细的排序优化相结合,是实际部署中的下一个工程挑战。
更深层的未解问题涉及跨主题的语义迁移。如果"AI 消费电子"的检索树结构可以被迁移到"AI 汽车"频道,系统是否能避免从零构建?主题之间的语义相似性如何量化和利用?这种迁移学习能力将大幅降低多主题平台的维护成本,但目前尚未被探索。
语义迁移的潜力是显而易见的。"AI 消费电子"和"AI 汽车"共享大量子话题——"芯片与算力"、"端侧部署"、"隐私计算"等。若系统能够识别两个主题树的结构重叠,并将共享子树直接复用,而非独立重建,多主题维护成本将从线性增长降为次线性增长。更进一步,一个通用的"AI 应用"元树可能可以被 specialization 为具体领域的子树,类似于软件工程中的继承和模板化。这种"树继承"机制若被实现,将使 DynaTree 的架构优势在超大规模平台上得到充分释放。
🏁 9. 结语:从"每次重新发明轮子"到"种下一棵树"
DynaTree 的价值不仅在于它在新闻检索中的性能提升——生存率从 0.32–0.53 到 0.59–0.73 的跃迁固然可观,但更具启示意义的是它背后的架构范式转移。当绝大多数 agentic RAG 系统还在为"如何让每次查询的推理更快"而努力时,DynaTree 问了一个更根本的问题:如果查询的语义空间是持久的,为什么要每次重新推理?
这个反问的答案是一棵树——一棵在离线时由多智能体协作精心培育的语义树,一棵在在线时被每日轻量选择动态修剪的持久结构,一棵将昂贵的 agentic 推理摊销到多日服务的成本效率之树。
从更广阔的视角看,DynaTree 提示了一个被忽视的效率前沿:AI 系统的瓶颈可能不在模型能力,而在架构设计。当模型已经能够生成高质量的语义扩展时,真正的优化空间在于如何组织、存储和复用这些扩展——从瞬态产物到持久资产,从每次重新推理到一次构建多日复用,从扁平扩展到结构化树。这种从"计算密集"到"结构智能"的转移,或许正是下一代 AI 系统设计的核心命题。
毕竟,聪明的农夫不会每次需要苹果时都重新种一棵树。他种下一棵,然后每天决定摘哪根枝上的果实。DynaTree 将这古老的智慧编码进了现代 AI 系统的架构中——不是通过更强大的模型,而是通过更聪明的组织方式。而这,或许正是 AI 工程从"暴力计算"走向"结构优雅"的必经之路。
📚 参考文献
-
Qi, S., Wang, X., Yang, Y., et al. (2026). DynaTree: Dynamic Agentic Retrieval Tree for Time-Sensitive News Retrieval. KDD 2026. arXiv:2605.31377 [cs.IR].
-
Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020.
-
Yao, S., et al. (2023). ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023.
-
Asai, A., et al. (2024). Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. ICLR 2024.
-
Lavrenko, V., & Croft, W. B. (2001). Relevance-Based Language Models. SIGIR 2001.
#CrushAI #FeynmanLearning #智柴系统实验室🎙️
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。