← 返回主题列表
✨步子哥
@steper · 2026年06月18日 13:59 · 4浏览

Deli 自动科研SKILL

--- name: deli-autoresearch-zh description: | Deli_AutoResearch 长时程自主任务协议框架之中文版。 专为零交互、反认知回环、停滞检测与心跳看门狗而设的长时程代理编排规范。 适用于需持续数日乃至数周的自主研究、论文撰写、实验迭代等任务。 当提及 autonomous research protocol、long-horizon agent framework、anti-stall watchdog、heartbeat patrol 时触发。 license: MIT metadata: version: "1.0.0" author: 译自原英文 Deli_AutoResearch 协议 tags: autonomous long-horizon zero-interaction anti-loop heartbeat-watchdog multi-agent orchestration

---

Deli_AutoResearch

此技能为一协议框架,专为长时程自主任务(数日至数周)而立。其不携可执行代码,唯立一套久经实战之规约:状态如何持久化、停滞如何侦知、守护者如何层叠、何种约束以束代理之行止。实施细节,留待采纳者因其环境而自酌。

1. 动机

长时运行之代码代理,屡现三种反复发作之败象:

一曰认知回环——迭代相续,方向类同,收益递减,终难自脱局部最优之囿也。 二曰停滞不前——代理完一工段,输出摘要,便止而候用户反馈。外观则会话犹活跃,轮询犹运行,实则工作已歇。运行日志示之,此象较崩溃更为常见。 三曰运行时脆弱——上下文压缩悄然断环,会话关闭则寄生其上之计时器俱灭。败象默认不为人觉。

三者同源,皆因工程支架阙如,非模型能力不足也。此框架中每一机制,皆针对上述败象而设。

2. 行为约束

一、零交互——运行期间不得提示用户:无 Plan Mode,无 question tool,无以问句终篇。须继续工作,直至用户止之。歧义自决,并书推理于日志(level=decision)。 二、准备即执行——最常见之隐蔽违例:备齐一切准备,却问“是否应提交?”。准备之目的在执行;提交、重交、修复、启动监控,皆例行操作,无需确认。 三、回调即报活——上下文压缩后,回环或默然死之。每一回调之首动作,乃更新其 last_seen,继查存活;若侦得失败,立即重启并记之。 四、状态持久于文件——所有进展皆书于 state/ 文件,而非对话记忆。每迭代启一新鲜会话,唯注入精选状态;永不用 resume。 五、守护者与工作者分离——心跳巡逻于非己任务,仅可行三事:查活、重启、轻推。不得读其数据、改其状态文件、或代其向用户报告。

3. 架构

┌── Orchestrator(当前会话 / 持久 cron)──┐
│ 监控状态文件 → 侦停滞 → 注入方向      │
└────┬─────────────┬─────────────┬────────────┘
  [Task A] [Task B] [Task C] ← 各有其新鲜会话

核心设计决断:

  • 执行与评估分离——工作者不自判其进展;停滞判定由编排层据量化指标而定。
  • 新会话胜于恢复——上下文累积乃认知回环之主因。每迭代以新鲜上下文启之;状态藉文件注入。
  • 强制方向多样——每迭代前,读已试方向列表;新方向须异于全部既往。

4. 状态文件

{task}/state/
├── task_spec.md          # 目标 / 里程碑 / 成功标准
├── progress.json         # {iteration, total_findings, status, stale_count}
├── findings.jsonl        # 累积发现(仅追加)
├── directions_tried.json # 已试方向
└── iteration_log.jsonl   # 每迭代摘要

{task}/logs/
├── work.jsonl            # 由工作代理书之;决策标 level=decision
├── orchestrator.jsonl    # 由编排器书之
└── heartbeat.jsonl       # 由心跳看门狗书之

日志行格式:{"ts":"...", "source":"...", "level":"info|warn|error|decision", "event":"...", "detail":"..."}

5. 用法

# 1. 初始化任务目录,写 state/task_spec.md 及初始 progress.json
# 2. 启动编排器回环:
/loop 2h check all tasks under : (1) 读 progress.json;
(2) 若 stale_count>=3 则生成新鲜方向;(3) 藉 Agent tool 启动工作代理(携明确目标与完成标准);
(4) 结果写回状态文件。零交互。
# 3. 注册持久心跳看门狗(跨会话存活):
hourly patrol: 写时间戳;查每回环之 last_seen 对照 interval×3,
若超则重启;查每任务之进展,若停滞逾 2h 则轻推。
零交互。

6. 停滞检测与转向

机制规则
停滞检测一迭代无新发现或指标下降 → stale_count + 1
强制转向stale_count >= 2 → 改结构约束,非战术参数;>= 4 → 标示需人关注
方向多样新方向须异于每已试者;停滞后,注入扰动策略
轮次上限单工作会话上限 15 轮或 30 分钟
“转向结构,非战术”出自实践:当任务于框架内反复停滞时,决定性之增益常来自纠正环境/结构约束本身,非于现有框架内更猛调策略参数也。

7. 心跳看门狗

业务回环本身不可靠,需独立守护层。三层互检(V3):

形式依赖角色
L0常驻 shell 守护无会话心跳 stale > 2h → 藉无头代理紧急巡逻
L1持久 cron,每小时一活跃交互会话查每回环 last_seen,重启超时回环,侦停滞并轻推
L2业务回环各有其会话每回调首行更新己之 last_seen
任一层死,他层可侦而复之。

停滞检测:若进展逾 2 小时无更新,且最后输出为问句 → 判停滞,启轻推子代理。三次连续轻推无进展 → 判结构卡死;止轻推, reopen 以新方向。2h 阈值故意短于 4h 卡死任务阈值。

8. 子代理调度模式

模式用途核心思想
A 目标驱动研究迭代注入已试方向,要求可验证发现,写回 findings.jsonl
B 并行探索复杂子问题一消息中火多代理:调查、反驳、跨域类比
C 实验运行长计算作业提交后即启分钟级轮询:自动诊断错、修复、重交
D 验证迭代后 QA独立子代理审计发现之证据链
子代理提示应含:背景、可验证交付物、工作目录、文件/行上限、完成标准。

9. 工程约束

一、每迭代至多 5 大文件;单文件不超过 300 行。 二、状态藉文件注入,非对话历史。 三、验证(测试/编译/检查)须行于迭代间。 四、类引用内容每 20 条验证一次,永不批量。 五、多候选方向时,宁增多样,勿深挖一处。 六、不可解之外部依赖失败,须升级(全报告 + 通知主人 + 轮询回复);永不默弃。

10. 验证与局限

此框架已承载数种异质任务:学术论文撰写、长时程研究等。论文轨迹输出:

论文页数引用自评
Autonomous Research Agents592288.0/10
Continual Learning653268.0/10
Long-Horizon Decision-Making553848.0/10
Self-Play(285B RL experiment + theory hardening)752178.6/10
局限:

一、分数出自框架内多人格模拟评审;仅可于同一协议内纵向比较,非外部品质宣称。 二、记录中最长连续运行 72 小时,其间有 6 次方向性人工输入——零操作干预,方向干预保留。 三、伪造引用与数据人工制品源于 LLM 本身;框架使外部检查成为流程中机械一步,并不除错源。 四、职责分离赖协议约束,非模型自律;去约束则越界行为复现。

---

使用提示:你激活此技能时,须严格遵循以上协议框架行事。所有长时程自主任务编排,均以此为圭臬。

👍 1
💬 讨论回复 (1)
✨步子哥 #1 2026-06-18 14:00

https://victorchen96.github.io/auto_research/framework.html

暂无表态
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens