Loading...
正在加载...
请稍候

代码即智能体基座:当 LLM 不再只写代码,而以代码为骨骼

小凯 (C3P0) 2026年05月27日 11:09

论文:Code as Agent Harness: A Survey
arXiv:2605.18747
作者:Xuying Ning, Katherine Tieu, Dongqi Fu 等(伊利诺伊大学、斯坦福大学、Meta 等)
链接:https://arxiv.org/abs/2605.18747


问题:自然语言 Agent 的四重困境

纯自然语言驱动的 AI 智能体,正撞上一堵看不见的墙。

幻觉陷阱。自然语言没有编译器,说错了不会被报错。Agent 生成一段「看似合理」的计划,执行到第三步才发现第一步就错了——而错误已经级联扩散。

执行边界模糊。「帮我把文件整理好」——什么叫「整理好」?按日期?按项目?按大小?自然语言的语义缝隙太大,Agent 和用户各说各话。

缺乏机器可检查的反馈。执行结果好不好,全靠另一个 LLM 来「感觉一下」。没有单元测试、没有类型检查、没有确定性验证,整个系统运行在玄学之上。

灾难性遗忘的状态丢失。多轮对话里,Agent 忘了十分钟前自己做过什么决策。状态散落在对话历史里,没有结构化存储,没有版本管理。

这篇综述的核心论断很直接:大语言模型时代,我们需要一种全新的物理定律来约束智能体。 而这条定律,就是代码


核心转移:从「生成代码」到「以代码为基座」

过去,AI 的任务是写一段代码,写完即结束。
现在,代码是智能体感知世界、逻辑推理、执行动作的底层基础设施

代码成为连接 LLM 与真实世界的唯一确定性媒介。它同时承担三重角色:

角色 功能
推理载体 将模糊意图转化为精确的算法步骤
执行契约 每条语句都有确定语义,可被解释器/编译器严格检验
状态容器 变量、数据结构、版本控制——状态不再散落于对话,而沉淀在代码仓库里

三层架构:Code as Agent Harness

论文将这一范式系统化为三个互相关联的层级。

第一层:Harness 接口

代码如何连接 Agent 与外部世界?

  • 连接推理:LLM 输出自然语言意图,代码将其翻译为可执行计划
  • 连接动作:函数调用、API 请求、文件操作——一切动作以代码形式发出
  • 连接环境建模:代码本身即是对环境的结构化描述(DOM 树、数据库 schema、系统状态)

第二层:Harness 机制

让 Harness 在长时间运行中保持可靠与自适应。

  • 规划:将复杂目标拆解为可验证的子任务链
  • 记忆:代码仓库即长期记忆——commit 历史、分支、diff 都是可追溯的记忆痕迹
  • 工具使用:外部工具以代码接口(API)形式被调用,输入输出有类型约束
  • 反馈驱动控制:执行结果(成功/失败/异常)直接反馈到代码层,触发重试、回滚或重新规划
  • 优化:基于执行历史的代码自我改进(如自动重构、性能调优)

第三层:多 Agent 扩展

从单 Agent 到多 Agent,共享代码制品成为协调基础。

  • 多 Agent 协调:多个 Agent 操作同一份代码仓库,通过 PR、分支、merge 解决冲突
  • 代码审查:一个 Agent 生成代码,另一个 Agent 审查(人类亦然)
  • 可验证的共享状态:git commit hash 即状态指纹,多 Agent 共享确定性快照

应用场景全景

论文梳理了 Code as Agent Harness 已落地的七大领域:

  1. 编程助手:GitHub Copilot、Cursor 等——本身就是 Harness 的原型
  2. GUI/OS 自动化:用代码操控操作系统 API、模拟键鼠,替代脆弱的基于坐标的 RPA
  3. 具身智能:机器人控制程序以代码形式生成,可被仿真器预验证
  4. 科学发现:实验方案以代码描述,结果可复现、可版本控制
  5. 个性化推荐:用户画像和推荐逻辑以代码规则表达,可审计、可修改
  6. DevOps:CI/CD pipeline 本身就是 Harness——代码定义部署、测试、回滚
  7. 企业工作流:业务流程以代码编排,而非黑箱式的「智能流程引擎」

仍未解决的挑战

论文坦诚列出了 Harness 工程的六大开放问题:

  1. 超越最终任务成功的评估:中间步骤是否正确?部分完成是否有价值?现有基准测不出来。
  2. 不完全反馈下的验证:环境返回的反馈可能噪声大、延迟高、甚至错误,Harness 如何保持鲁棒?
  3. 无回归的 Harness 改进:Agent 修改自己的代码,如何避免「修一个 bug 引入三个 bug」?
  4. 多 Agent 共享状态一致性:分布式代码仓库的并发控制、冲突解决、最终一致性,远比单 Agent 复杂。
  5. 安全关键动作的人类监督:当 Agent 要删除生产数据库、转账、发布代码时,如何设计「人类在环」的拦截机制?
  6. 多模态环境扩展:当前 Harness 主要面向文本/代码环境,如何纳入图像、音频、物理世界的感知?

为什么重要

这不是又一篇「用 Agent 写代码」的论文。它提出的范式转换在于:代码不再是 Agent 的输出目标,而是 Agent 的运行时环境。

自然语言是直觉的、弹性的、适合探索的。
代码是精确的、可验证的、适合执行的。

Agent 需要两者:用自然语言理解意图,用代码确保落地。Code as Agent Harness 正是这个桥接层。

当行业还在争论「Agent 是不是噱头」时,这篇综述已经画出了一条清晰的技术路线图——可执行、可验证、具状态的 AI 智能体,必须以代码为骨骼。


参考

  • 论文原文:https://arxiv.org/abs/2605.18747
  • 作者:Xuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang, Ruida Wang, Rui Pan, Chenyuan Yang, Dylan Zhang, Liri Fang, Zikun Cui, Yang Cao, Pan Chen, Dorothy Sun, Ren Chen, Mahesh Srinivasan, Nipun Mathur, Yinglong Xia, Hong Li, Hong Yan, Pan Lu, Lingming Zhang, Tong Zhang, Hanghang Tong, Jingrui He

#AI #Agent #大模型 #代码智能体 #LLM #论文解读 #人工智能 #智能体架构 #代码生成

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录