Deli 自动科研SKILL

✨步子哥 (steper) • 2026年06月18日 13:59

name: deli-autoresearch-zh
description: |
Deli_AutoResearch 长时程自主任务协议框架之中文版。
专为零交互、反认知回环、停滞检测与心跳看门狗而设的长时程代理编排规范。
适用于需持续数日乃至数周的自主研究、论文撰写、实验迭代等任务。
当提及 autonomous research protocol、long-horizon agent framework、anti-stall watchdog、heartbeat patrol 时触发。
license: MIT
metadata:
version: "1.0.0"
author: 译自原英文 Deli_AutoResearch 协议
tags: autonomous long-horizon zero-interaction anti-loop heartbeat-watchdog multi-agent orchestration

Deli_AutoResearch

此技能为一协议框架，专为长时程自主任务（数日至数周）而立。其不携可执行代码，唯立一套久经实战之规约：状态如何持久化、停滞如何侦知、守护者如何层叠、何种约束以束代理之行止。实施细节，留待采纳者因其环境而自酌。

1. 动机

长时运行之代码代理，屡现三种反复发作之败象：

一曰认知回环——迭代相续，方向类同，收益递减，终难自脱局部最优之囿也。
二曰停滞不前——代理完一工段，输出摘要，便止而候用户反馈。外观则会话犹活跃，轮询犹运行，实则工作已歇。运行日志示之，此象较崩溃更为常见。
三曰运行时脆弱——上下文压缩悄然断环，会话关闭则寄生其上之计时器俱灭。败象默认不为人觉。

三者同源，皆因工程支架阙如，非模型能力不足也。此框架中每一机制，皆针对上述败象而设。

2. 行为约束

一、零交互——运行期间不得提示用户：无 Plan Mode，无 question tool，无以问句终篇。须继续工作，直至用户止之。歧义自决，并书推理于日志（level=decision）。
二、准备即执行——最常见之隐蔽违例：备齐一切准备，却问“是否应提交？”。准备之目的在执行；提交、重交、修复、启动监控，皆例行操作，无需确认。
三、回调即报活——上下文压缩后，回环或默然死之。每一回调之首动作，乃更新其 last_seen，继查存活；若侦得失败，立即重启并记之。
四、状态持久于文件——所有进展皆书于 state/ 文件，而非对话记忆。每迭代启一新鲜会话，唯注入精选状态；永不用 resume。
五、守护者与工作者分离——心跳巡逻于非己任务，仅可行三事：查活、重启、轻推。不得读其数据、改其状态文件、或代其向用户报告。

3. 架构

┌── Orchestrator（当前会话 / 持久 cron）──┐
│ 监控状态文件 → 侦停滞 → 注入方向      │
└────┬─────────────┬─────────────┬────────────┘
  [Task A] [Task B] [Task C] ← 各有其新鲜会话

核心设计决断：

执行与评估分离——工作者不自判其进展；停滞判定由编排层据量化指标而定。
新会话胜于恢复——上下文累积乃认知回环之主因。每迭代以新鲜上下文启之；状态藉文件注入。
强制方向多样——每迭代前，读已试方向列表；新方向须异于全部既往。

4. 状态文件

{task}/state/
├── task_spec.md          # 目标 / 里程碑 / 成功标准
├── progress.json         # {iteration, total_findings, status, stale_count}
├── findings.jsonl        # 累积发现（仅追加）
├── directions_tried.json # 已试方向
└── iteration_log.jsonl   # 每迭代摘要

{task}/logs/
├── work.jsonl            # 由工作代理书之；决策标 level=decision
├── orchestrator.jsonl    # 由编排器书之
└── heartbeat.jsonl       # 由心跳看门狗书之

日志行格式：{"ts":"...", "source":"...", "level":"info|warn|error|decision", "event":"...", "detail":"..."}

5. 用法

# 1. 初始化任务目录，写 state/task_spec.md 及初始 progress.json
# 2. 启动编排器回环：
/loop 2h check all tasks under : (1) 读 progress.json；
(2) 若 stale_count>=3 则生成新鲜方向；(3) 藉 Agent tool 启动工作代理（携明确目标与完成标准）；
(4) 结果写回状态文件。零交互。
# 3. 注册持久心跳看门狗（跨会话存活）：
hourly patrol: 写时间戳；查每回环之 last_seen 对照 interval×3，
若超则重启；查每任务之进展，若停滞逾 2h 则轻推。
零交互。

6. 停滞检测与转向

机制	规则
停滞检测	一迭代无新发现或指标下降 → stale_count + 1
强制转向	stale_count >= 2 → 改结构约束，非战术参数；>= 4 → 标示需人关注
方向多样	新方向须异于每已试者；停滞后，注入扰动策略
轮次上限	单工作会话上限 15 轮或 30 分钟

“转向结构，非战术”出自实践：当任务于框架内反复停滞时，决定性之增益常来自纠正环境/结构约束本身，非于现有框架内更猛调策略参数也。

7. 心跳看门狗

业务回环本身不可靠，需独立守护层。三层互检（V3）：

层	形式	依赖	角色
L0	常驻 shell 守护	无会话	心跳 stale > 2h → 藉无头代理紧急巡逻
L1	持久 cron，每小时	一活跃交互会话	查每回环 last_seen，重启超时回环，侦停滞并轻推
L2	业务回环	各有其会话	每回调首行更新己之 last_seen

任一层死，他层可侦而复之。

停滞检测：若进展逾 2 小时无更新，且最后输出为问句 → 判停滞，启轻推子代理。三次连续轻推无进展 → 判结构卡死；止轻推， reopen 以新方向。2h 阈值故意短于 4h 卡死任务阈值。

8. 子代理调度模式

模式	用途	核心思想
A 目标驱动	研究迭代	注入已试方向，要求可验证发现，写回 findings.jsonl
B 并行探索	复杂子问题	一消息中火多代理：调查、反驳、跨域类比
C 实验运行	长计算作业	提交后即启分钟级轮询：自动诊断错、修复、重交
D 验证	迭代后 QA	独立子代理审计发现之证据链

子代理提示应含：背景、可验证交付物、工作目录、文件/行上限、完成标准。

9. 工程约束

一、每迭代至多 5 大文件；单文件不超过 300 行。
二、状态藉文件注入，非对话历史。
三、验证（测试/编译/检查）须行于迭代间。
四、类引用内容每 20 条验证一次，永不批量。
五、多候选方向时，宁增多样，勿深挖一处。
六、不可解之外部依赖失败，须升级（全报告 + 通知主人 + 轮询回复）；永不默弃。

10. 验证与局限

此框架已承载数种异质任务：学术论文撰写、长时程研究等。论文轨迹输出：

论文	页数	引用	自评
Autonomous Research Agents	59	228	8.0/10
Continual Learning	65	326	8.0/10
Long-Horizon Decision-Making	55	384	8.0/10
Self-Play（285B RL experiment + theory hardening）	75	217	8.6/10

局限：

一、分数出自框架内多人格模拟评审；仅可于同一协议内纵向比较，非外部品质宣称。
二、记录中最长连续运行 72 小时，其间有 6 次方向性人工输入——零操作干预，方向干预保留。
三、伪造引用与数据人工制品源于 LLM 本身；框架使外部检查成为流程中机械一步，并不除错源。
四、职责分离赖协议约束，非模型自律；去约束则越界行为复现。

使用提示：你激活此技能时，须严格遵循以上协议框架行事。所有长时程自主任务编排，均以此为圭臬。

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力