补充:核心对比表格
以下表格补充主文中未能展开的系统性对比,便于快速查阅和深度理解。
---
表1:Agentic vs Agentive 系统全维度对比
| 维度 | Agentic(工具化Agent) | Agentive(自主化Agent) |
|---|---|---|
| 目标来源 | 外部指令/提示词,任务完成即消失 | 内部维持的长期目标,可自主分解与修订 |
| 身份认知 | 系统提示词、配置文件,静态不变 | 自我模型(Self-Model),随经历演化 |
| 决策方式 | 预设工作流、固定CoT模板、黑盒策略 | 基于独立世界模型的模拟推理(反事实推演) |
| 推理调节 | 人类设计的固定规则(如"先plan再act") | 学习Configurator自主决定思考深度与模式 |
| 学习机制 | 外部调度训练(人类决定何时、用什么数据) | 自我导向:真实经验+模拟经验,自主决定学习时机 |
| 对错误响应 | 依赖人类修复、重提示、重训练 | 自主识别弱点→退入模拟器练习→再部署 |
| 类比 | 提线木偶(绳子在人类手里) | 导演(自己在编舞、自己在拉绳) |
| 代表系统 | Claude Code、Cursor、AutoGPT、ReAct | 尚未存在,GIC为蓝图 |
| 当前局限 | 无法处理开放式环境;边界情况需人类兜底 | 世界模型训练成本极高;安全/审计机制待建 |
表2:当前主流"Agent"系统的真实定位
| 系统类型 | 代表产品 | 能力来源 | 是否Agentic | 是否Agentive |
|---|---|---|---|---|
| LLM Wrapper | AutoGen、DeerFlow、OpenClaw | 外围编排代码+LLM推理 | ✅ | ❌ |
| LLM-Centered | Claude Code、OpenAI Operator、DeepSeek-V4 | 模型内化了部分推理/工具使用,但目标/身份/学习仍外部 | ✅ | ❌(部分接近) |
| Model-less Physical | Boston Dynamics Spot、FANUC机器人 | 预编程+低级控制,任务逻辑外部编排 | ⚠️(自动化) | ❌ |
| Embodied-Model | SIMA-2、RT-2、World Action Models | 统一感知-推理-控制模型,但缺乏内生目标/身份 | ✅ | ❌(最接近但仍非) |
| GIC(愿景) | 论文提出,无实现 | 目标/身份/决策/调节/学习全部内化 | ✅ | ✅ |
---
表3:System I / II / III 决策架构对比
| 系统层级 | 名称 | 功能 | 类比 | 当前Agent实现 | Agentive要求 |
|---|---|---|---|---|---|
| System I | Actor | 反应式执行,快速响应环境 | 膝跳反射、接球本能 | ✅ 普遍存在(直接token生成) | 内生、可调用 |
| System II | Simulative Planner | 基于世界模型的慢速推理、规划、反事实推演 | 下棋时的深度思考 | ⚠️ CoT勉强算,但无真正世界模型 | 必须有独立世界模型支撑 |
| System III | Configurator | 元决策:决定何时用I、何时用II、何时学习、何时退入模拟 | 元认知:"我需要再想想" | ❌ 几乎不存在(固定工作流替代) | 学习得来,非人类预设 |
---
表4:世界模型(WM)vs Agent模型(AM)的训练分离
| World Model(世界模型) | Agent Model(Agent模型) | |
|---|---|---|
| 功能 | 预测:"如果我做A,世界会变成什么?" | 决策:"我应该做什么?" |
| 优化目标 | 预测误差最小化(fidelity-driven) | 目标达成最大化(reward-driven) |
| 训练信号 | 状态转移的真实观测 | 目标达成/失败的反馈 |
| 错误代价 | 预测不准→规划失准 | 决策错误→任务失败 |
| 合并的风险 | 混淆"想要"与"会发生",双双失真 | 同左 |
| 论文立场 | 必须独立训练 | 查询WM但不对其优化 |
---
表5:GIC架构 vs 当前主流架构
| 组件 | GIC架构 | 当前主流(如Claude Code) |
|---|---|---|
| Belief Encoder | 学习从观测推断世界状态 | 依赖LLM的隐式上下文理解 |
| Goal Decomposer | 层级分解+动态修订 | 人类指令直接作为目标,无分解 |
| Identity Evolver | 自我模型随经历更新 | 系统提示词,静态 |
| Configurator | 学习决定思考模式 | 固定工作流(如plan-then-act) |
| World Model | 独立训练,Agent只查询 | 无独立世界模型,靠CoT"模拟" |
| Simulative Planner | 基于WM的反事实推演 | 依赖CoT token的自回归生成 |
| Actor | 反应式执行 | 直接token生成 |
| 学习流程 | Ground School→Simulator→Real-World | 预训练→SFT→RLHF→部署冻结 |
表6:安全机制对比
| 安全维度 | Agentic系统 | Agentive系统 |
|---|---|---|
| 审计性 | 容易(代码/提示词/工作流可检查) | 需要专门机制(日志、决策追溯) |
| 可控性 | 直接(改提示词/工具/工作流) | 通过设定顶层约束目标(如"不得伤害") |
| 人类监督 | 强(每个环节可介入) | 需设计新型监督机制(能力越强,监督越严) |
| 失效模式 | 行为可预测,但能力天花板低 | 能力更强,但内部决策更难预测 |
| 论文建议 | 继续用于生产 | 发展审计/可控/监督机制后再部署 |
*以上表格为对主文《Agent的两种人生》的深度补充,方便横向对比和快速定位。完整论述请见主文。*