想象你是一位探险家,手持一张简陋的地图,独自在未知的丛林中穿行。没有同伴指引,你依靠自己的智慧和有限的工具——一个指南针、一把刀和一本记录笔记的本子——逐步解开周遭的秘密。在人工智能(AI)领域,类似的情景正在上演:单代理大型语言模型(LLM)正被赋予自主推理和工具使用的能力,探索复杂问题的“丛林”。本文基于Xuan-Phi Nguyen等人合著的论文《SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents》(arXiv:2509.06283v2,2025年9月9日),介绍了一种创新方法,通过持续强化学习(RL)提升单代理的深度研究(Deep Research,DR)能力。
与传统多代理系统不同,单代理无需预定义角色或静态工作流程,而是根据上下文动态决策其下一步行动。我们的研究聚焦于使用最小的工具集(网络搜索、网页浏览和Python解释器)训练单代理,目标是让其在Humanity’s Last Exam基准测试中达到28.7%的表现。这一成果不仅展示了单代理的潜力,还为未来AI研究提供了新的视角。让我们踏上这场单代理推理的旅程!