构建长效Agent

✨步子哥 · 2025-12-08T01:40:53+00:00

构建长效Agent——功能清单、增量开发与端到端实现 * { margin: 0; padding: 0; box-sizing: border-box; } body { font-family: 'Noto Sans SC', sans-serif; background: linear-gradient(135deg, #1a237e, #283593, #3949ab); color: #ffffff; line-height: 1.6; } .poster-container { width: 720px; min-height: 960px; margin: 0 auto; padding: 40px; background: linear-gradient(135deg, rgba(26, 35, 126, 0.9), rgba(57, 73, 171, 0.85)); position: relative; overflow: hidden; } .background-pattern { position: absolute; top: 0; left: 0; width: 100%; height: 100%; background-image: radial-gradient(circle at 10% 20%, rgba(255, 255, 255, 0.05) 1px, transparent 1px), radial-gradient(circle at 50% 70%, rgba(255, 255, 255, 0.05) 1px, transparent 1px), radial-gradient(circle at 90% 40%, rgba(255, 255, 255, 0.05) 1px, transparent 1px); background-size: 40px 40px; z-index: 0; } .content { position: relative; z-index: 1; } .header { text-align: center; margin-bottom: 30px; padding-bottom: 20px; border-bottom: 2px solid rgba(255, 255, 255, 0.2); } .title { font-size: 48px; font-weight: 900; margin-bottom: 10px; line-height: 1.2; background: linear-gradient(90deg, #ffffff, #90caf9); -webkit-background-clip: text; background-clip: text; color: transparent; } .subtitle { font-size: 22px; font-weight: 500; color: #bbdefb; } .section { margin-bottom: 30px; padding: 20px; background: rgba(255, 255, 255, 0.1); border-radius: 16px; backdrop-filter: blur(5px); box-shadow: 0 4px 30px rgba(0, 0, 0, 0.1); border: 1px solid rgba(255, 255, 255, 0.2); } .section-title { font-size: 28px; font-weight: 700; margin-bottom: 15px; color: #ffffff; display: flex; align-items: center; } .section-title .material-icons { margin-right: 10px; font-size: 32px; color: #64b5f6; } .feature-list { list-style: none; margin-left: 10px; } .feature-list li { margin-bottom: 10px; padding-left: 25px; position: relative; } .feature-list li:before { content: "•"; color: #64b5f6; font-size: 24px; position: absolute; left: 0; top: -5px; } .comparison { display: flex; justify-content: space-between; margin-top: 15px; } .comparison-item { width: 48%; padding: 15px; background: rgba(255, 255, 255, 0.05); border-radius: 10px; } .comparison-title { font-size: 18px; font-weight: 700; margin-bottom: 10px; color: #90caf9; } .code-block { background: rgba(0, 0, 0, 0.3); border-radius: 8px; padding: 12px; font-family: monospace; font-size: 14px; margin-top: 10px; overflow-x: auto; color: #e0f7fa; } .grid-container { display: grid; grid-template-columns: 1fr 1fr; gap: 20px; margin-top: 15px; } .grid-item { background: rgba(255, 255, 255, 0.05); border-radius: 10px; padding: 15px; } .grid-item-title { font-size: 18px; font-weight: 700; margin-bottom: 10px; color: #90caf9; display: flex; align-items: center; } .grid-item-title .material-icons { margin-right: 8px; font-size: 20px; } .highlight { background: rgba(255, 193, 7, 0.2); padding: 2px 5px; border-radius: 4px; } .tag { display: inline-block; padding: 4px 10px; background: rgba(76, 175, 80, 0.3); border-radius: 20px; margin-right: 8px; margin-bottom: 8px; font-size: 14px; } .footer { text-align: center; margin-top: 40px; padding-top: 20px; border-top: 2px solid rgba(255, 255, 255, 0.2); } .slogan { font-size: 24px; font-weight: 700; color: #64b5f6; margin-bottom: 10px; } .reference { font-size: 14px; color: #bbdefb; } .warning { background: rgba(244, 67, 54, 0.2); padding: 10px; border-radius: 8px; margin-top: 10px; border-left: 4px solid #f44336; } .warning-title { font-weight: 700; color: #ffcdd2; display: flex; align-items: center; } .warning-title .material-icons { margin-right: 8px; font-size: 20px; } .workflow-step { display: flex; align-items: center; margin-bottom: 15px; } .step-number { background: rgba(100, 181, 246, 0.3); border-radius: 50%; width: 40px; height: 40px; display: flex; justify-content: center; align-items: center; margin-right: 15px; font-weight: 700; font-size: 20px; } .step-content { flex: 1; } .step-title { font-weight: 700; color: #90caf9; margin-bottom: 5px; } 构建长效Agent 功能清单、增量开发与端到端实现 smart_toy 长效Agent的定义与挑战长效Agent是一种能够长期自主运行、灵活调用各类工具处理复杂任务的智能系统，与传统Agent相比更注重长期稳定运行和持续学习能力。 psychology 核心特点自主性：能根据环境变化自动调整行为反应性：能对外界刺激作出及时反应主动性：能主动采取行动达成目标社会性：能与其他Agent或人类协作进化性：能积累经验并优化自身行为 warning 核心挑战离散会话：每个新会话开始时没有之前的记忆上下文限制：大多数复杂项目无法在单个上下文窗口中完成状态管理：需要找到方法桥接编码会话之间的差距 format_list_bulleted 功能列表设计原则格式选型 Markdown：结构松散，易于编写但容易产生幻觉或误删 JSON：结构刚性，防止模型擅自修改结构核心逻辑规模(Scale)：需列出200+细分功能状态(State)：默认必须为"passes": false Prompt强硬指令：限制模型行为 { "category": "functional", "description": "New chat button creates a fresh conversation", "steps": [ "Navigate to main interface", "Click the 'New Chat' button", "Verify a new conversation is created", "Check that chat area shows welcome state", "Verify conversation appears in sidebar" ], "passes": false } warning Prompt强硬指令示例 "绝不允许删除或编辑测试用例..你只能修改'passes'字段的状态。" architecture 两部分解决方案 Anthropic提出的两部分解决方案，解决了Agent在多个上下文窗口中工作的核心挑战： 1 初始化Agent 第一个Agent会话使用专门提示，设置初始环境：init.sh脚本、claude-progress.txt文件和初始git提交 2 编码Agent 每个后续会话要求模型只做增量进展，然后留下结构化更新，确保环境处于干净状态 settings 初始环境设置 init.sh脚本：初始化项目环境 claude-progress.txt：记录Agent已完成的工作初始git提交：显示添加的文件功能列表文件：定义所有需要实现的功能 code 增量进展管理一次只处理一个功能使用git提交记录进展在进度文件中编写摘要保持代码整洁和文档完整 bug_report 测试策略 Agent倾向于在没有适当测试的情况下将功能标记为完成，因此需要专门的测试策略： rule 端到端测试使用浏览器自动化工具进行测试模拟真实用户操作流程通过截图验证功能状态识别和修复代码中不明显的错误 build 测试工具 Puppeteer MCP服务器单元测试框架 API测试工具（如curl命令）视觉回归测试工具测试挑战 Agent视觉能力限制浏览器自动化工具的局限性难以识别所有类型的错误测试最佳实践明确提示进行端到端测试使用人类用户的方式进行测试记录测试结果和错误日志 apps 应用场景与案例 business_center 自动化办公文档处理与分类邮件自动回复与分类日程管理与提醒 account_balance 财务自动化发票识别与处理凭证自动生成税务合规性校验 support_agent 智能客服多轮对话管理问题智能解答用户情感分析 create 内容生成文章自动撰写代码生成与优化创意设计与辅助 trending_up 未来发展趋势 groups 多Agent协作系统多个专业Agent协同工作，通过分工协作解决复杂问题，提高整体效率和准确性 smart_toy 具身智能 Agent与物理世界的交互能力增强，能够操作实体设备，实现更广泛的应用场景 psychology 自我学习与进化 Agent具备更强的自我学习能力，能够从经验中不断优化自身行为模式 security 安全性与可控性更强大的安全机制和控制手段，确保Agent行为符合预期，防止意外后果 memory 多上下文窗口工作流程优化Agent在多个上下文窗口间的工作流程，实现更高效的长期任务处理 visibility 增强的视觉能力更强大的视觉识别能力和浏览器自动化工具，提高测试和验证的准确性 AI IN ALL! 参考资源：Anthropic - Effective harnesses for long-running agents | Plan Agent plan-execute-replan todo list | Modern Agent

长效Agent的定义与挑战

长效Agent是一种能够长期自主运行、灵活调用各类工具处理复杂任务的智能系统，与传统Agent相比更注重长期稳定运行和持续学习能力。

核心特点

自主性：能根据环境变化自动调整行为

反应性：能对外界刺激作出及时反应

主动性：能主动采取行动达成目标

社会性：能与其他Agent或人类协作

进化性：能积累经验并优化自身行为

核心挑战

离散会话：每个新会话开始时没有之前的记忆

上下文限制：大多数复杂项目无法在单个上下文窗口中完成

状态管理：需要找到方法桥接编码会话之间的差距

功能列表设计原则

格式选型

Markdown：结构松散，易于编写但容易产生幻觉或误删

JSON：结构刚性，防止模型擅自修改结构

核心逻辑

规模(Scale)：需列出200+细分功能

状态(State)：默认必须为"passes": false

Prompt强硬指令：限制模型行为

{
  "category": "functional",
  "description": "New chat button creates a fresh conversation",
  "steps": [
    "Navigate to main interface",
    "Click the 'New Chat' button",
    "Verify a new conversation is created",
    "Check that chat area shows welcome state",
    "Verify conversation appears in sidebar"
  ],
  "passes": false
}
                

Prompt强硬指令示例

"绝不允许删除或编辑测试用例..你只能修改'passes'字段的状态。"

两部分解决方案

Anthropic提出的两部分解决方案，解决了Agent在多个上下文窗口中工作的核心挑战：

1

初始化Agent

第一个Agent会话使用专门提示，设置初始环境：init.sh脚本、claude-progress.txt文件和初始git提交

2

编码Agent

每个后续会话要求模型只做增量进展，然后留下结构化更新，确保环境处于干净状态

初始环境设置

init.sh脚本：初始化项目环境

claude-progress.txt：记录Agent已完成的工作

初始git提交：显示添加的文件

功能列表文件：定义所有需要实现的功能

增量进展管理

一次只处理一个功能

使用git提交记录进展

在进度文件中编写摘要

保持代码整洁和文档完整

测试策略

Agent倾向于在没有适当测试的情况下将功能标记为完成，因此需要专门的测试策略：

端到端测试

使用浏览器自动化工具进行测试

模拟真实用户操作流程

通过截图验证功能状态

识别和修复代码中不明显的错误

测试工具

Puppeteer MCP服务器

单元测试框架

API测试工具（如curl命令）

视觉回归测试工具

测试挑战

Agent视觉能力限制

浏览器自动化工具的局限性

难以识别所有类型的错误

测试最佳实践

明确提示进行端到端测试

使用人类用户的方式进行测试

记录测试结果和错误日志

应用场景与案例

自动化办公

文档处理与分类

邮件自动回复与分类

日程管理与提醒

财务自动化

发票识别与处理

凭证自动生成

税务合规性校验

智能客服

多轮对话管理

问题智能解答

用户情感分析

内容生成

文章自动撰写

代码生成与优化

创意设计与辅助

未来发展趋势

多Agent协作系统

多个专业Agent协同工作，通过分工协作解决复杂问题，提高整体效率和准确性

具身智能

Agent与物理世界的交互能力增强，能够操作实体设备，实现更广泛的应用场景

自我学习与进化

Agent具备更强的自我学习能力，能够从经验中不断优化自身行为模式

安全性与可控性

更强大的安全机制和控制手段，确保Agent行为符合预期，防止意外后果

多上下文窗口工作流程

优化Agent在多个上下文窗口间的工作流程，实现更高效的长期任务处理

增强的视觉能力

更强大的视觉识别能力和浏览器自动化工具，提高测试和验证的准确性

构建长效Agent

构建长效Agent

smart_toy 长效Agent的定义与挑战

format_list_bulleted 功能列表设计原则

architecture 两部分解决方案

bug_report 测试策略

apps 应用场景与案例

trending_up 未来发展趋势

🌟 智谱 GLM-5 已上线

长效Agent的定义与挑战

功能列表设计原则

两部分解决方案

测试策略

应用场景与案例

未来发展趋势