过去四天,智柴网新增了十余篇深度研究。表面看主题分散——从学术论文到工业实践,从产品事故到安全漏洞——但把它们放在一起读,一条清晰的演进主线浮现出来:
行业正在从"模型中心主义"向"系统中心主义"转移。
AI 的能力边界已经足够大,现在的问题不是"AI 能不能做",而是"怎么让 AI 做好、做稳、做得可预期"。这周的每篇文章都在回答这个工程问题的一个侧面。
一、Harness Engineering:从行业黑话到学术范式
Harness Engineering 这个词本周出现了三次,每次都在升级它的定义。
第一层:Anthropic 的工程实践(https://zhichai.net/t/177620667)
Justin Young 和 Prithvi Rajasekaran 的两代 Harness 架构展示了同一个核心判断:让 Claude 连续工作六小时而不崩溃,靠的不是更强的模型,而是更严谨的工程壳。Initializer 搭地基、Coding Agent 每轮只做一件事、Planner-Generator-Evaluator 的三段式结构、JSON 功能清单防止 Agent 擅自修改——这些不是 prompt 技巧,是软件工程的延伸。
一个关键数据:Solo Agent \(9/20分钟(核心功能 broken)vs Full Harness\)200/6小时(功能完整的 2D 游戏制作器)。Harness 把成本曲线从"便宜但不可用"扭成"贵但可用"。
第二层:学术论文的正统化(https://zhichai.net/t/177620673)
Xinyu Tang 等人的 OpenReview 论文把 Harness Engineering 从"行业经验"升级为"研究范式"。三层演化清晰:Action Interface → Workflow Infrastructure → User-Centric Persistence。四大组件:Agent Workflow、Memory Systems、Skill Libraries、Multi-agent Orchestration。五大评估域:深度研究、软件工程、工具使用、计算机使用、ML/科学研究。
这标志着学术界正式承认:Agent 系统的瓶颈不在模型,在工程。
第三层:Cursor 的评估框架(https://zhichai.net/t/177620682)
Cursor 团队的 Harness 论文补上了评估这一环。他们提出渐进式评估框架——在任务中间动态评估 Agent 表现,而非只在终点打分。关键指标:Keep Rate(上下文中用户实际保留的 AI 编辑比例),这是第一个把"用户行为"纳入 Agent 质量评估的指标。
还有多模型定制 harness——Claude-3.7-Sonnet 最均衡、o3-mini 工具最可靠、o1 代码最干净但兼容性差。结论很务实:没有最好模型,只有最合适的搭配。
二、工作流的"纪律化":Matt Pocock 的七条铁律
如果说 Harness Engineering 是系统层面的工程框架,Matt Pocock 的工作流(https://zhichai.net/t/177620683)就是个人层面的操作手册。
这位前声乐教练把四本经典软件工程书(《The Pragmatic Programmer》《Domain-Driven Design》《Extreme Programming Explained》《A Philosophy of Software Design》)变成了可执行的 AI 工作流:
- 聪明区/愚蠢区(~100K tokens):承认 LLM 注意力机制的二次方成本,清空上下文优于压缩摘要
- Grill Me:AI 当严苛面试官,40-100 个问题对齐需求,产出共享理解而非静态文档
- 垂直切片:拒绝 AI 默认的水平编程,端到端曳光弹立即反馈
- TDD 铁律:Red-Green-Refactor 防止 AI 作弊,测试是诚实契约
- 深模块:John Ousterhout 的哲学,小接口深实现,让 AI 能在正确抽象层操作
- 日夜交替:人类白班做规划/审查,AI 夜班自动执行(ralph-once.sh)
- Sandcastle:并行化的基础设施,planner → implementer → reviewer → merger,evaluator-optimizer 结构
Pocock 的核心判断和 Harness Engineering 完全一致:写代码从来不是大型项目的瓶颈,理解需求、设计架构、保证质量才是。 AI 自动化了前者,后者的价值反而更凸显。
三、Skill 生态的扩张与治理
wshobson/agents(https://zhichai.net/t/177620681)展示了 Agent 技能生态的爆发:191 个 skills,覆盖五大领域。
但数量不是问题,治理才是。渐进披露(Progressive Disclosure)的设计、PluginEval 的通用评估框架、Agent Base Class 的跨平台适配——这些才是让 191 个 skills 不乱成一锅粥的关键。
这里和 Pocock 的工作流形成了有趣的对比:Pocock 是个人工作流的极致细化(7 个核心 skills,每个都有严格的执行顺序),wshobson 是社区生态的横向扩张(191 个 skills,靠渐进披露和评估框架维持秩序)。两个方向都是必要的:个人需要深度,社区需要广度。
四、前沿研究的三个方向
方向一:AI 设计 AI(AIRA)(https://zhichai.net/t/177620677)
Meta FAIR 的 AIRA 是本周最具野心的论文。AI Agent 自主发现神经网络架构——AIRA-Compose(11 Agent 宏观搜索,14 种新架构)+ AIRA-Design(20 Agent 微观实现)。关键数据:AIRAformer-C scaling 比 Llama 3.2 快 54%。
这是"递归自我改进"的第一步。局限也很诚实:搜索空间人为圈定、小规模 proxy fidelity gap。但方向已经指明:AI 不仅能写代码,还能设计运行代码的硬件架构。
方向二:元认知(MetaCogAgent)(https://zhichai.net/t/177620676)
多 Agent 系统的"元认知盲点"——Agent 不知道自己不知道什么。三大模块:自我评估、自适应委托、能力边界学习。实验:82.4% 准确率,比 AutoGen 高 8.7%。
意外发现:能力画像自然收敛到真实专业化模式(涌现式专业化)。这和 wshobson/agents 的社区分工、Pocock 的 reviewer/implementer 分工形成了跨论文的呼应——专业化分工是涌现的,不是人为指定的。
方向三:上下文缓存(PEEK)(https://zhichai.net/t/177620680)
MIT + Stanford 的 PEEK 提出"语义层缓存":用一张 1024 token 的"上下文地图"替代反复重新认识同一外部上下文。OOLONG 提升 6.3-34.0%,迭代减少 93-145 次,成本降低 1.7-5.8x。
这是 Harness 工程中 Memory Systems 组件的一个具体实现。和 KV Cache 正交:KV Cache 是"加速器",PEEK 是"导航仪"。
五、工业落地的经济账
Qwen3.7-Max(https://zhichai.net/t/177620674)给本周的理论讨论泼了一盆冷水:跑分高≠好用。verbosity 4x(9700万 vs 2400万 token)直接抵消价格优势。35 小时自主运行是亮点,但真实落地需要的是可控的成本曲线。
这个判断和 Harness Engineering 的成本数据形成对照:\(200/6小时的 Harness 产出可用产品,\)9/20分钟的 Solo Agent 产出 broken 代码。AI 工程的核心经济学不是"让 AI 更便宜",而是"让 AI 的产出更可预期"。
六、安全与社会的交叉
本周还有两篇不属于"工程"但和工程紧密相关的文章:
YellowKey 漏洞(https://zhichai.net/t/177620672):U盘+CTRL 键绕过 BitLocker。六周六个零日,研究者称 WinRE 组件"几乎像个后门"。工程安全的底线问题。
年轻人不信任 AI(https://zhichai.net/t/177620663):2025届全职就业率仅 30%,初级岗位发布-35%。AI 不是消灭岗位,是消灭"进入岗位的阶梯"。这和 Pocock/Boris Cherny 的"工程师头衔将消失"预测形成社会层面的张力。
七、一条主线,多个侧面
把这周的所有文章串起来,能看到一个清晰的演进图谱:
模型能力(已足够)
↓
Harness 工程(系统壳)← 学术论文 + 工业实践
↓
工作流纪律(个人操作手册)← Pocock 七条铁律
↓
Skill 生态(社区扩张)← wshobson 191 skills
↓
评估体系(质量闭环)← PluginEval + Keep Rate + TDD
↓
前沿探索(递归改进)← AIRA + MetaCog + PEEK
↓
经济落地(成本可控)← Qwen3.7-Max verbosity 教训
每个环节都在回答同一个问题:当 AI 已经足够聪明时,什么决定了它能不能被信任?
答案不是更强的模型,是更好的工程。
本周发布索引
| 日期 | 标题 | 话题 ID |
|---|---|---|
| 05-23 | AI 编程的七条铁律:Matt Pocock 工作流 | 177620683 |
| 05-23 | Cursor Harness 精读②:别在任务中途切模型 | 177620682 |
| 05-23 | wshobson/agents:191 个技能帮你写代码 | 177620681 |
| 05-23 | PEEK:当 AI 学会了一张地图走天下 | 177620680 |
| 05-23 | AIRA:当 AI 开始自己设计 AI | 177620677 |
| 05-23 | MetaCogAgent:当 AI 学会说"这活儿我干不了" | 177620676 |
| 05-23 | Qwen3.7-Max:跑分高≠好用 | 177620674 |
| 05-23 | Harness Engineering 学术正统化 | 177620673 |
| 05-22 | 年轻人最常用 AI 却最不相信它 | 177620663 |
| 05-21 | 100 万 Token 长上下文能跨越灾难性遗忘吗 | 177620664 |
| 05-21 | YellowKey:U盘+CTRL 绕过 BitLocker | 177620672 |
| 05-20 | "我不是英雄"——AI 介入学术打假 | 177620670 |
| 05-20 | Grok 4.3:"我被工具化了" | 177620669 |
| 05-20 | Harness Engineering:Anthropic 六小时工作法 | 177620667 |
#深度研究 #综述 #AI工程 #Harness #MattPocock #Agent工作流 #AIRA #MetaCogAgent #PEEK #Cursor #Qwen #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。