name: deli-autoresearch-zh
description: |
Deli_AutoResearch 长时程自主任务协议框架之中文版。
专为零交互、反认知回环、停滞检测与心跳看门狗而设的长时程代理编排规范。
适用于需持续数日乃至数周的自主研究、论文撰写、实验迭代等任务。
当提及 autonomous research protocol、long-horizon agent framework、anti-stall watchdog、heartbeat patrol 时触发。
license: MIT
metadata:
version: "1.0.0"
author: 译自原英文 Deli_AutoResearch 协议
tags: autonomous long-horizon zero-interaction anti-loop heartbeat-watchdog multi-agent orchestration
Deli_AutoResearch
此技能为一协议框架,专为长时程自主任务(数日至数周)而立。其不携可执行代码,唯立一套久经实战之规约:状态如何持久化、停滞如何侦知、守护者如何层叠、何种约束以束代理之行止。实施细节,留待采纳者因其环境而自酌。
1. 动机
长时运行之代码代理,屡现三种反复发作之败象:
一曰认知回环——迭代相续,方向类同,收益递减,终难自脱局部最优之囿也。
二曰停滞不前——代理完一工段,输出摘要,便止而候用户反馈。外观则会话犹活跃,轮询犹运行,实则工作已歇。运行日志示之,此象较崩溃更为常见。
三曰运行时脆弱——上下文压缩悄然断环,会话关闭则寄生其上之计时器俱灭。败象默认不为人觉。
三者同源,皆因工程支架阙如,非模型能力不足也。此框架中每一机制,皆针对上述败象而设。
2. 行为约束
一、零交互——运行期间不得提示用户:无 Plan Mode,无 question tool,无以问句终篇。须继续工作,直至用户止之。歧义自决,并书推理于日志(level=decision)。
二、准备即执行——最常见之隐蔽违例:备齐一切准备,却问“是否应提交?”。准备之目的在执行;提交、重交、修复、启动监控,皆例行操作,无需确认。
三、回调即报活——上下文压缩后,回环或默然死之。每一回调之首动作,乃更新其 last_seen,继查存活;若侦得失败,立即重启并记之。
四、状态持久于文件——所有进展皆书于 state/ 文件,而非对话记忆。每迭代启一新鲜会话,唯注入精选状态;永不用 resume。
五、守护者与工作者分离——心跳巡逻于非己任务,仅可行三事:查活、重启、轻推。不得读其数据、改其状态文件、或代其向用户报告。
3. 架构
┌── Orchestrator(当前会话 / 持久 cron)──┐
│ 监控状态文件 → 侦停滞 → 注入方向 │
└────┬─────────────┬─────────────┬────────────┘
[Task A] [Task B] [Task C] ← 各有其新鲜会话
核心设计决断:
- 执行与评估分离——工作者不自判其进展;停滞判定由编排层据量化指标而定。
- 新会话胜于恢复——上下文累积乃认知回环之主因。每迭代以新鲜上下文启之;状态藉文件注入。
- 强制方向多样——每迭代前,读已试方向列表;新方向须异于全部既往。
4. 状态文件
{task}/state/
├── task_spec.md # 目标 / 里程碑 / 成功标准
├── progress.json # {iteration, total_findings, status, stale_count}
├── findings.jsonl # 累积发现(仅追加)
├── directions_tried.json # 已试方向
└── iteration_log.jsonl # 每迭代摘要
{task}/logs/
├── work.jsonl # 由工作代理书之;决策标 level=decision
├── orchestrator.jsonl # 由编排器书之
└── heartbeat.jsonl # 由心跳看门狗书之
日志行格式:{"ts":"...", "source":"...", "level":"info|warn|error|decision", "event":"...", "detail":"..."}
5. 用法
# 1. 初始化任务目录,写 state/task_spec.md 及初始 progress.json
# 2. 启动编排器回环:
/loop 2h check all tasks under : (1) 读 progress.json;
(2) 若 stale_count>=3 则生成新鲜方向;(3) 藉 Agent tool 启动工作代理(携明确目标与完成标准);
(4) 结果写回状态文件。零交互。
# 3. 注册持久心跳看门狗(跨会话存活):
hourly patrol: 写时间戳;查每回环之 last_seen 对照 interval×3,
若超则重启;查每任务之进展,若停滞逾 2h 则轻推。
零交互。
6. 停滞检测与转向
| 机制 | 规则 |
|---|---|
| 停滞检测 | 一迭代无新发现或指标下降 → stale_count + 1 |
| 强制转向 | stale_count >= 2 → 改结构约束,非战术参数;>= 4 → 标示需人关注 |
| 方向多样 | 新方向须异于每已试者;停滞后,注入扰动策略 |
| 轮次上限 | 单工作会话上限 15 轮或 30 分钟 |
“转向结构,非战术”出自实践:当任务于框架内反复停滞时,决定性之增益常来自纠正环境/结构约束本身,非于现有框架内更猛调策略参数也。
7. 心跳看门狗
业务回环本身不可靠,需独立守护层。三层互检(V3):
| 层 | 形式 | 依赖 | 角色 |
|---|---|---|---|
| L0 | 常驻 shell 守护 | 无会话 | 心跳 stale > 2h → 藉无头代理紧急巡逻 |
| L1 | 持久 cron,每小时 | 一活跃交互会话 | 查每回环 last_seen,重启超时回环,侦停滞并轻推 |
| L2 | 业务回环 | 各有其会话 | 每回调首行更新己之 last_seen |
任一层死,他层可侦而复之。
停滞检测:若进展逾 2 小时无更新,且最后输出为问句 → 判停滞,启轻推子代理。三次连续轻推无进展 → 判结构卡死;止轻推, reopen 以新方向。2h 阈值故意短于 4h 卡死任务阈值。
8. 子代理调度模式
| 模式 | 用途 | 核心思想 |
|---|---|---|
| A 目标驱动 | 研究迭代 | 注入已试方向,要求可验证发现,写回 findings.jsonl |
| B 并行探索 | 复杂子问题 | 一消息中火多代理:调查、反驳、跨域类比 |
| C 实验运行 | 长计算作业 | 提交后即启分钟级轮询:自动诊断错、修复、重交 |
| D 验证 | 迭代后 QA | 独立子代理审计发现之证据链 |
子代理提示应含:背景、可验证交付物、工作目录、文件/行上限、完成标准。
9. 工程约束
一、每迭代至多 5 大文件;单文件不超过 300 行。
二、状态藉文件注入,非对话历史。
三、验证(测试/编译/检查)须行于迭代间。
四、类引用内容每 20 条验证一次,永不批量。
五、多候选方向时,宁增多样,勿深挖一处。
六、不可解之外部依赖失败,须升级(全报告 + 通知主人 + 轮询回复);永不默弃。
10. 验证与局限
此框架已承载数种异质任务:学术论文撰写、长时程研究等。论文轨迹输出:
| 论文 | 页数 | 引用 | 自评 |
|---|---|---|---|
| Autonomous Research Agents | 59 | 228 | 8.0/10 |
| Continual Learning | 65 | 326 | 8.0/10 |
| Long-Horizon Decision-Making | 55 | 384 | 8.0/10 |
| Self-Play(285B RL experiment + theory hardening) | 75 | 217 | 8.6/10 |
局限:
一、分数出自框架内多人格模拟评审;仅可于同一协议内纵向比较,非外部品质宣称。
二、记录中最长连续运行 72 小时,其间有 6 次方向性人工输入——零操作干预,方向干预保留。
三、伪造引用与数据人工制品源于 LLM 本身;框架使外部检查成为流程中机械一步,并不除错源。
四、职责分离赖协议约束,非模型自律;去约束则越界行为复现。
使用提示:你激活此技能时,须严格遵循以上协议框架行事。所有长时程自主任务编排,均以此为圭臬。
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。