🤖 Affordance Agent Harness：让AI学会"看什么、碰什么、用什么"

> 论文: Affordance Agent Harness: Verification-Gated Skill Orchestration > 作者: Haojian Huang, Jiahao Shi, Yinchuan Li, Yingcong Chen > arXiv: 2605.00663 | 2026-04-30

---

一、那个"看着烤箱却不知能打开"的AI

想象一个机器人走进厨房。它看到了：

烤箱
冰箱
水龙头
橱柜

但它不知道：

烤箱门可以打开
冰箱可以取东西
水龙头可以出水
橱柜把手可以拉

这就是"affordance"（可供性）问题：物体提供了什么行动可能性？

---

二、Open-World Affordance 的三大挑战

在开放世界场景中，affordance grounding极其困难：

1. 可操作区域小而隐蔽

抽屉把手只有几厘米
按钮可能被遮挡
开关可能藏在后面

2. 视觉歧义

反光的表面难以识别
透明物体（如玻璃门）难以检测
形状相似的物体功能不同

3. 技能组合的复杂性

单个技能（检测、分割、交互想象）不够
需要组合多个技能
但固定流程无法适应不同难度

现有系统的盲区：

固定pipeline：不管简单还是困难，都用同样的流程
缺乏错误恢复：中间步骤出错就失败
无法复用经验：遇到相似物体，每次都从头开始

---

三、Verification-Gated Skill Orchestration

这篇论文提出 Affordance Agent Harness，核心创新：

核心洞察： > Test-time grounding必须获取正确的证据。不是执行固定的技能序列，而是根据当前状态动态选择、验证、调整。

三大机制：

1. 难度感知的技能选择

简单实例：只需要检测
困难实例：需要检测+分割+交互想象
根据当前证据的充分性，动态选择技能

2. 验证门控（Verification-Gated）

每个技能执行后，验证结果是否可信
不可信？触发恢复机制
可信？继续下一步
不是"一直走下去"，而是"每一步都检查"

3. 经验复用

识别反复出现的物体
复用之前成功的策略
避免重复探索

这就像一位经验丰富的修理工：不是每次都拆开整个机器，而是先诊断问题，然后选择恰当的工具，每一步都验证，遇到熟悉的故障直接应用已知的解决方案。

---

四、为什么"动态编排"优于"固定流程"？

固定pipeline的问题：

过度处理：

简单任务用了复杂流程
浪费计算
可能引入不必要的错误

处理不足：

困难任务用了简单流程
无法解决
错误无法恢复

动态编排的优势：

恰到好处：根据难度选择技能
容错：验证门控确保质量
学习：经验复用提高效率

这类似于人类的认知策略：

看到熟悉的门 → 直接拉把手
看到不熟悉的装置 → 仔细观察、试探、确认
不是每次都做全套分析

---

五、费曼式的判断：好的系统知道"何时停止思考"

费曼说过：

> "知道如何解决一个问题很重要，但知道什么时候不需要解决它更重要。"

在affordance grounding中：

> "不是每个实例都需要全套技能。简单的任务应该快速解决，困难的才需要深度分析。好的系统知道'什么时候已经够了'。"

Verification-Gated的哲学是：智能不仅体现在"能做什么"，还体现在"知道什么时候该做什么"。

固定pipeline = 机械的执行者
动态编排 = 有判断力的行动者

---

六、带走的启发

如果你在构建AI Agent或机器人系统，问自己：

1. "我的系统是否有'难度感知'——根据任务复杂度调整策略？" 2. "每个步骤后是否有验证机制？" 3. "错误是否可以被恢复，还是一错就崩？" 4. "经验是否可以被复用？"

Affordance Agent Harness提醒我们：AI Agent的智能不仅在于"有多少技能"，更在于"如何编排技能"。

在开放世界中，固定的流程是脆弱的。能够感知、验证、调整、学习的动态编排——这才是真正智能的Agent。

当AI学会"看什么、碰什么、用什么"，它就从被动的观察者变成了主动的行动者。

#Affordance #Robotics #AIAgent #SkillOrchestration #Verification #FeynmanLearning #智柴AI实验室