小贴士:本文所言「AI 科学家」,非谓机器人穿白大褂之于实验室中走来走去,乃指基于大语言模型(LLM)构建之智能体系统,能自主提出研究想法、设计实验、执行代码、撰写论文——恰如人类科学家之所为。
🤖 序章:科学发现之困境
昔者,阿基米德于浴缸中悟得浮力之理,牛顿见苹果落地而思引力之律。科学发现,自古以来便是人类智慧之专属领域。然则,科学发现之过程,实则充满艰辛与曲折。
试想,一位博士生欲开展一项研究,需历几许步骤?
其一,文献调研。于浩如烟海之论文库中,搜寻与研究主题相关之文献。此过程,短则数周,长则数月。且文献之多,日新月异,纵皓首穷经,亦难穷尽。
其二,想法生成。基于文献调研之结果,提出新颖且可行之研究想法。此步骤,需深厚之领域知识、敏锐之直觉、丰富之创造力。多数研究者,穷数年之功,方能提出一项值得发表之想法。
其三至其七,实验设计、代码实现、结果分析、论文撰写、审稿响应——每一环节,皆需耗费大量时日,且任一环节之失误,皆可能导致前功尽弃。
综观上述诸步骤,科学发现之全过程,短则数月,长则数年,甚至数十年。
然则,人工智能之发展,尤其是大语言模型(LLM)之突破,为科学发现之自动化带来新之希望。公元 2020 年前后,GPT-3、BERT 等模型初露锋芒。彼时,众人皆惊叹于其文本生成之能力,然鲜有人思及:此等模型,安能提出科学假设、设计实验、撰写论文?
设问:大语言模型,究其本质,乃一统计模型,凭海量文本训练而得。其所能为者,不过是预测下一词之概率分布。如此之模型,安能提出科学假设?
答曰:大语言模型虽本质上为统计模型,然其于海量文本中学习所得之知识,已涵盖人类科学文献之大部分。且,借助提示工程(Prompt Engineering)之技,可引导大语言模型扮演各种角色——包括科学家之角色。
然则,单凭大语言模型,尚不足以构建完整之 AI 科学家系统。盖科学发现之全过程,非仅「提出想法」一端,尚需实验设计、代码实现、结果分析、论文撰写等诸多环节。是故,AI 科学家系统之构建,需将大语言模型与诸多工具(如代码执行器、文献检索器、论文撰写器)相结合,形成一完整之工作流。
🌱 第一章:AI 科学家之萌芽
AI 科学家系统之发展,可分为三代。
第一代:单智能体系统(2020-2023)
最初之尝试,皆为单智能体系统。所谓「单智能体」,即整个系统由一个大语言模型实例驱动,所有任务皆由此一实例完成。代表系统:AutoGPT、BabyAGI。
工作方式:用户给出一高层级目标,系统将此目标分解为若干子任务,逐一完成之,最后汇总结果,生成报告。
局限性:缺乏专业分工——一 LLM 实例,需同时胜任文献检索、想法生成、代码编写、论文撰写等诸多任务。且难以处理复杂任务——科学发现之全过程,往往需多步骤之迭代与优化,单智能体系统于处理此类复杂任务时,常出现「迷失方向」之情形。
第二代:多智能体系统(2023-2025)
有鉴于单智能体系统之局限性,研究者开始探索多智能体系统。代表系统:MetaGPT、ChatDev、AutoGen。
以 MetaGPT 为例:产品经理智能体负责理解用户需求,撰写产品需求文档;架构师智能体负责设计系统架构;工程师智能体负责编写代码;测试员智能体负责编写测试用例。各智能体之间通过结构化文档进行通信与协作。
优势:专业分工,各智能体专注于特定之任务;结构化协作,通过文档进行通信,避免信息混乱。
局限性:流程静态——智能体之间之协作流程,乃预先设计好之静态流程。若遇预想不到之情况,系统难以自适应调整。且无法从历史交互中学习——每次运行,系统皆从零开始,不保留上次运行之经验。
小贴士:所谓「静态流程」,犹按菜谱做菜。菜谱上写「步骤一:热锅;步骤二:倒油;步骤三:下菜」,汝便依此三步依次做去。然若汝所用之锅,其材质与菜谱不同,需调整火候,而菜谱未述及此,则汝便不知所措。AI 科学家系统之静态流程,亦复如是——遇未见之情况,便难以应对。
第三代:进化多智能体系统(2025 至今)
第二代系统之根本缺陷(无法从历史交互中学习),促使研究者探索第三代系统——进化多智能体系统。此类系统之核心特征,便是具备「持久记忆」与「自我进化」之能力。
代表系统:EvoScientist、GNoME(Google DeepMind)、FunSearch(Google DeepMind)。
核心创新:持久记忆(Persistent Memory)——系统维护一外部记忆模块,存储过往之经验。每次运行,系统皆可从此记忆模块中检索相关信息,以指导当前之决策。自我进化(Self-Evolution)——系统不仅能从记忆中检索信息,还能基于新之交互经验,更新记忆模块。
EvoScientist 之地位:EvoScientist 为第三代系统中,首个开源之完整框架。其于 2026 年 3 月发布之论文,详细阐述了其设计理念与技术实现。而 EvoSkills,则为 EvoScientist 框架之官方技能仓库,提供 15 个专业技能包,使研究者能便捷地使用与扩展 EvoScientist 之功能。
🏗️ 第二章:EvoScientist 之架构——三智能体之协奏
EvoScientist 框架,其核心乃由三个专业智能体组成。此三智能体,犹交响乐团之三位演奏家,各司其职,而又紧密协作。
智能体一:研究员智能体(Researcher Agent, RA)
职责:科学想法之生成。
工作流程:
一、加载记忆。从「创意记忆(M_I)」中,检索过往之研究方向(包括成功之方向与失败之方向)。
二、文献锚定。调用 paper-navigator 技能,检索与研究主题相关之论文(30-50 篇),并构建「挑战-洞察树(Challenge-Insight Tree)」。
三、多角色创意生成。从三个不同之视角,生成研究创意:创新者视角(关注新颖性)、实用主义者视角(关注可行性)、批判者视角(关注科学价值)。
四、创意优化。对初始创意进行多轮迭代优化(每创意最多 3 次迭代)。
五、ELO 锦标赛排名。将所有优化后之创意,进行两两配对比较,根据比较结果更新各创意之 ELO 分数,最终选出 Top 3 之创意。
六、提案扩展。将用户选中之创意,扩展为完整之研究提案。
核心技术:ELO 锦标赛排名机制。此机制最初由 Arpad Elo 于 1960 年代提出,用于评估象棋选手之相对技能水平。EvoScientist 将此机制应用于研究创意之评估:每创意初始 ELO 分为 1500,K 因子设为 32。通过多轮两两比较,最终 ELO 分数最高之创意,即为最优之创意。
智能体二:工程师智能体(Engineer Agent, EA)
职责:实验之执行与实现。
工作流程分为四阶段:
阶段一:初始实现(最多 20 次尝试)。运行基线代码,复现已知结果。若成功复现,则进入阶段二;否则,终止实验。
阶段二:超参数调优(最多 12 次尝试)。为当前环境优化配置。若性能优于基线,则进入阶段三;否则,返回阶段一。
阶段三:提出的方法(最多 12 次尝试)。实现并验证新方法。若新方法显著优于基线(\(p < 0.05\)),则进入阶段四;否则,返回阶段二。
阶段四:消融研究(最多 18 次尝试)。验证新方法中每个组件之贡献。完成所有消融实验后,输出最终结果。
核心技术:结构化四阶段实验管线,含尝试预算与门控条件。
小贴士:所谓「门控条件」,犹关卡之制。汝须先通过前一关,方可进入后一关。于 EvoScientist 之实验管线中,「成功复现基线结果」乃进入阶段二之「门」;「性能优于基线」乃进入阶段三之「门」。此设计之好处在于:若当前阶段之目标未达成,则系统不会盲目进入下一阶段,从而避免浪费计算资源。
智能体三:进化管理智能体(Evolution Manager Agent, EMA)
职责:管理记忆之更新与进化机制之执行。
工作流程:
一、 从研究员智能体之输出中,提取可行之研究方向,存入「创意记忆(M_I)」(此过程称为 IDE——创意方向进化)。
二、 从工程师智能体之代码轨迹日志中,提取有效之实验策略,存入「实验记忆(M_E)」(此过程称为 ESE——实验策略进化)。
三、 将实验失败分类为「实现失败」或「根本方向失败」,并将「根本方向失败」之信息反馈至 M_I,以避免后续重复此类失败(此过程称为 IVE——创意验证进化)。
三智能体之协同
研究员智能体、工程师智能体、进化管理智能体,三者之间并非孤立运作,而是紧密协同。每一研究周期完成后,进化管理智能体便从其中汲取经验,更新记忆;而更新后之记忆,又指导后续之研究周期,使之表现更优。如此,便形成一完整之自我进化循环。
🛠️ 第三章:EvoSkills——赋予 AI 科学家之专业技能
EvoScientist 框架虽提供了一通用之架构,然要将其应用于具体之科研场景,仍需大量之领域知识与专业技能。
譬喻:EvoScientist 框架,犹一熟练之工匠,知其应做何事;然若令其雕刻象牙,则其需「象牙雕刻之技能」;若令其绘制瓷器,则其需「瓷器绘制之技能」。
EvoSkills 之角色:提供一整套专业技能包,使 EvoScientist 能胜任各种科研场景。
EvoSkills 之 15 个技能
吾将依其功能,分为四大类,逐一述之。
第一类:研究创意阶段
技能一:research-ideation(研究创意生成)
此乃研究管线之起点。其覆盖从文献锚定,到排名创意,再到生成具体提案之完整路径。详细流程:加载先验知识,复用可行之研究方向;文献锚定,使用 paper-navigator 收集分析论文;多轨道创意生成,通过多角色生成候选创意,再迭代增强;ELO 锦标赛,从新颖性、可行性、相关性、清晰度四个维度,对优化后之创意排名,输出 Top 3;提案扩展,将选中之胜出创意,扩展为手稿级研究提案。
反直觉之规则:问题选择优先于方案设计——选择研究什么,比设计怎么研究更重要。优先探索现有方法之失败场景,而非 incremental 改进。生成阶段重数量轻质量——先生成大量候选,再评估。可行性是必要条件——brilliant 但不可行之创意,是科研资源之浪费。
技能二:research-survey(文献综述合成)
专门用于将大规模论文集合,转化为结构化综述报告之技能。核心功能:自适应大纲——基于查询类型和文献集合,生成领域专属之大纲;Drafting + 扩展管线——先基于顶级论文起草,再用全部文献深化每个章节;综述级输出——包含对比表、基于分类之方法组织、密集引用和参考文献。
技能三:paper-navigator(学术论文发现与阅读)
聚焦论文之四阶段工作流:从查询到评估后之阅读列表。提供七种发现路径:关键词搜索、引文遍历、推荐、作者追踪、arXiv 监控、趋势检测、GitHub 搜索。评估方法:通过 TLDR 快速了解论文之核心贡献;通过引用量,评估论文之影响力;通过代码可用性,判断论文之可复现性。
第二类:实验执行阶段
技能四:experiment-pipeline(四阶段实验执行)
带尝试预算和门控条件之结构化研究实验执行框架。四阶段之详细配置:阶段一(初始实现,最多 20 次尝试,门控条件:成功复现基线结果);阶段二(超参数调优,最多 12 次尝试,门控条件:性能优于基线);阶段三(提出的方法,最多 12 次尝试,门控条件:新方法显著优于基线);阶段四(消融研究,最多 18 次尝试,门控条件:完成所有消融实验)。
反直觉规则:初始实现不是浪费时间——其帮助吾等理解基线方法之细节。预算限制防止陷入死胡同——若 20 次尝试仍无法复现基线,则或许该方向根本不可行。失败尝试也是数据——从失败中学习者,远比从成功中学习者为多。
技能五:experiment-craft(实验调试与迭代)
系统化之实验调试、日志记录、迭代优化方法。五步诊断流程:收集故障,明确实验失败之现象;找到可运行版本,回溯至上一可运行之版本;缩小差距,对比可运行版本与当前版本之差异,定位问题之根源;提出假设,基于定位到之差异,提出修复假设;修复,实施修复,并验证。
反直觉规则:一次只改变一个变量——若同时改变多个变量,则无法定位问题之根源。有效实验比更多实验更重要——设计良好之实验,胜过盲目运行大量实验。
技能六:experiment-iterative-coder(迭代式代码优化)
结构化之「计划 → 代码 → 评估 → 优化」循环,提升代码质量。迭代循环(每个阶段最多 3 次迭代):计划——设计当前迭代之目标与方案;编码——实现方案;运行 lint/测试——使用 ruff lint 检查代码风格,使用 pytest 运行测试用例;评分——基于 lint 结果、测试结果、性能指标,计算综合评分;决策——若评分达到预期,则结束;否则,返回步骤一,进行下一轮迭代。
第三类:论文写作阶段
技能七:paper-planning(研究论文规划与大纲生成)
在正式写作前,指导预写作规划。四项核心活动:故事设计——逆向构建叙事逻辑(任务 → 挑战 → 洞察 → 贡献 → 优势);实验规划——用结构化检查表,规划对比实验、消融实验、演示场景;图表设计——突出新颖性之管线流程图、吸引审稿人之引导图;时间线管理——从大纲到投稿之四周倒计时时间表。
反直觉技巧:先写拒稿信——设想审稿人会如何 reject 此论文,从而有针对性地加强论文之薄弱环节。先收窄主张再扩展——过于宽泛之主张,往往缺乏说服力;先收窄至具体之点,再扩展之。
技能八:paper-writing(分章节论文撰写)
经过验证之 11 步学术论文写作工作流,附带 LaTeX 模板。写作原则:每段一个核心信息;主题句前置——让审稿人能在 30 秒内抓住段落之主旨;术语一致性——全文使用统一之术语,避免混淆;反向大纲法——写完论文后,从完成之段落中提取大纲,验证逻辑流是否连贯。
技能九:paper-review(自评与质量保证)
投稿前系统化自评,使用对抗性和反直觉之评审策略。五维度检查表:贡献充分性——论文之贡献是否足够大,值得发表?写作清晰度——论文之写作是否清晰,易于理解?结果质量——实验结果是否充分,支持论文之主张?测试完整性——是否进行了充分之消融实验、对比实验?方法设计——方法设计是否合理,有无漏洞?
拒稿模拟:先强制写拒稿总结——设想汝为审稿人,会如何 reject 此论文?然后,针对拒稿总结中之每一点,加强论文之薄弱环节。
技能十:paper-rebuttal(同行评审后 Rebuttal 撰写)
专门用于处理同行评审反馈后之反驳信写作技能。分数诊断:给每个审稿人评论做颜色编码——红色(关键,若不解决则论文必被 reject);橙色(重要,若不解决则论文很可能被 reject);灰色(次要,不影响论文之接受与否);绿色(正面,审稿人之肯定,可用于回应其他审稿人之质疑)。
战术写作:反驳信响应之 18 条结构、内容、语气规则。反直觉原则:即使分数极端(如 1、2、3 分),也要提交 rebuttal——只要汝有合理之回应,便有可能说服审稿人改变其评分。在小问题上让步,以赢得核心论点——若审稿人指出某处 typo,则欣然承认并修正;将精力集中于核心论点之辩护。
技能十一:paper-figures(从数据生成发表级 Matplotlib 图表)
先定规范之工作流,将 CSV 和自然语言描述,转化为独立 PNG 和可复现之 matplotlib 脚本。六步协议:规划图表,明确图表之目的、目标受众、关键讯息;检查数据,确保数据之完整性、正确性;编写 figure-spec.md,以紧凑之 Markdown 格式,定义图表之规范(轴、刻度、系列、禁用元素、假设);选择 matplotlib 语法,基于 figure-spec.md,选择适当之 matplotlib 语法;渲染,运行 matplotlib 脚本,生成 PNG 文件;审计,对照 figure-spec.md,验证 PNG 文件是否符合需求。
小贴士:
paper-figures技能之一大创新,在于其「先定规范」之原则。许多 AI 生成图表之工具,皆为先生成图表,再评估图表是否符合需求。然paper-figures反其道而行之:先定义图表之规范(figure-spec.md),再基于规范生成图表,最后审计图表是否符合规范。此「规范驱动」之方法,大幅降低了图表不符合需求之风险。
技能十二:academic-slides(学术汇报与研究演讲制作)
结构化之学术演示文稿制作和研究演讲准备方法。叙事弧:在接触幻灯片前,先定义范围、受众、核心要点。幻灯片设计之规则:每张幻灯片一个想法;主张式标题(如「方法 X 优于基线方法」,而非「实验结果」);视觉层级清晰;避免满屏文字——幻灯片非论文,乃辅助演讲之工具。
第四类:自我进化阶段
技能十三:evo-memory(持久研究记忆与自我进化)
此乃 EvoSkills 之核心技能,实现跨研究周期之知识积累。两个记忆存储:创意记忆(M_I),跨创意周期跟踪可行和不可行之研究方向;实验记忆(M_E),存储可复用之数据处理和模型训练策略。三种进化机制:IDE(创意方向进化),在 research-ideation 后,提取有前景之方向,存入 M_I;IVE(创意验证进化),将实验失败分类为实现失败或根本方向失败,若为根本方向失败,则存入 M_I;ESE(实验策略进化),从成功之实验管线中,提炼可复用之模式,存入 M_E。
记忆检索机制:基于嵌入余弦相似度(Embedding Cosine Similarity),检索最相关之记忆。
小贴士:嵌入余弦相似度,乃一衡量两段文本之语义相似度之指标。其基本原理为:将两段文本分别转换为向量(通过嵌入模型),然后计算两向量之间之余弦相似度。余弦相似度越接近 1,则表示两段文本之语义越相似。EvoScientist 利用此机制,从记忆模块中检索与研究主题最相关之记忆。
技能十四:nano-banana(AI 生成幻灯片与插图)
使用 Gemini 之图像生成 API,生成专业演示幻灯片和高质量插图,带交互式浏览器 review 循环。七阶段工作流:内容规划对话,与用户讨论演示之目标、受众、核心讯息;生成 slides_plan.json,以 JSON 格式,定义每张幻灯片之内容;风格选择与批量生成,选择视觉风格(线性彩色 / 渐变玻璃 / 矢量插画),然后批量生成幻灯片之插图;浏览器 review,启动本地 HTTP 服务器,让用户通过浏览器 review 每张幻灯片,并提供反馈;反馈编辑,根据用户之反馈,编辑幻灯片;PPTX 打包,将幻灯片导出为 .pptx 文件;清理,删除临时文件。
技能十五:evomath-tao(陶哲轩风格奥林匹克证明工作流)
严谨之证明工作流,输出完整证明、验证之反例、校准之部分结果或干净之交接,永远不会输出含糊之「已证明」。五步协议:简要规划,概览问题,提出证明策略;尝试候选,基于证明策略,尝试具体之证明;组装,将证明之各部分组装为完整之证明;审计,验证证明是否正确;反思,反思证明过程,提炼可复用之证明技巧。
五种诚实状态标签:PROVED(问题已完全证明);REFUTED(问题已反证);VERIFIED_NUMERICALLY(问题已数值验证,但尚缺严格之证明);CONJECTURED(问题尚未解决,但已提出猜想);HANDED_OFF(问题过于困难,需交接给人类数学家)。
🔬 第四章:实验验证——EvoScientist 是否真能自我进化?
前述之架构设计与技能体系,听起来固然美妙。然则,EvoScientist 是否真能如其声称那般,实现「自我进化」?对此问题,EvoScientist 团队进行了两项实验验证。
实验一:科学想法生成任务
任务:给定一研究主题,生成高质量之研究想法。
对比系统(7 个 SOTA 系统):AI Scientist-v2、AI-Researcher、InternAgent 等。
评估维度(4 个):新颖性(与已发表工作之差异度);可行性(于合理资源范围内可落地实现之程度);相关性(是否解决重要问题、匹配研究目标);清晰度(想法定义是否足够清晰,可立刻启动研究)。
评估结果:自动评估——EvoScientist 在 4 个维度上,均优于 7 个对比系统。人工评估——由 3 位领域专家(博士学位持有者)进行盲评,EvoScientist 之想法,在「新颖性」与「可行性」上,均显著优于对比系统。
关键发现:EvoScientist 之优势,主要源于其「记忆机制」——由于能从历史交互中学习,EvoScientist 能避免重复提出已发表之想法,也能避免重复尝试已知不可行之方向。
实验二:端到端实验执行
任务:给定一研究想法,端到端执行实验(从代码实现到结果输出)。
评估指标:代码执行成功率——即,实验管线是否能顺利运行至完成,而中途不因代码错误而终止。
评估结果:无记忆机制,代码执行成功率为 42%;有记忆机制(EvoScientist),代码执行成功率为 78%。提升幅度:+36 个百分点。
关键发现:记忆机制(尤其是「实验记忆 M_E」)能显著提升代码执行成功率。盖 M_E 中存储了过往成功之代码策略,当前实验可从中检索相关信息,避免重复犯相同之代码错误。
深度分析:自我进化效果之量化评估
虽上述两项实验,验证了 EvoScientist 之优越性,然其未量化「自我进化机制」之具体贡献。
问题:IDE、IVE、ESE 三机制,各自贡献几何?协同效应几何?
建议之消融实验:移除 M_I(即,禁用 IDE 与 IVE 机制),评估性能下降幅度;移除 M_E(即,禁用 ESE 机制),评估性能下降幅度;同时移除 M_I 与 M_E(即,完全无记忆机制),评估性能下降幅度。通过此消融实验,便可量化各机制之单独贡献与协同效应。
🌍 第五章:EvoSkills 之应用前景与局限性
EvoSkills 作为一新兴之 AI 科学家技能体系,其应用前景广阔,然亦存在若干局限性。
应用前景
前景一:加速科研迭代。传统之科研迭代,往往需数月乃至数年。而 EvoSkills,能于数小时乃至数分钟内,完成「想法生成 → 实验执行 → 结果分析」之全过程。
前景二:降低科研门槛。传统之科研,需深厚之领域知识与娴熟之技术技艺。而 EvoSkills,通过技能包之形式,将领域知识与技术技艺「封装」起来。即使是非领域专家,亦可借助 EvoSkills,开展高质量之研究。
前景三:跨学科研究。传统之跨学科研究,往往受限于研究者之知识边界。而 EvoSkills,能轻松整合不同学科之技能包,从而实现真正之跨学科研究。
局限性
局限性一:记忆污染风险。若初始记忆有误(如,错误之研究方向被标记为可行),则此错误将传播至后续之研究周期。
建议之应对策略:定期审查记忆模块,识别并修正错误之记忆;引入「记忆置信度」机制——对于置信度较低之记忆,系统应谨慎使用。
局限性二:长期进化之稳定性未验证。EvoScientist 团队目前仅验证了短期(数个研究周期)之进化效果。然若研究周期数达数十乃至数百,记忆模块是否会随时间累积噪声,导致性能下降(灾难性遗忘)?
建议之验证实验:设计长期进化实验(50+ 周期),监控记忆质量与想法生成性能之变化趋势。
局限性三:跨领域泛化能力未验证。EvoScientist 目前主要应用于计算机科学领域。然其是否适用于其他领域(如生物学、化学、物理学)?此问题尚待验证。
🔮 第六章:未来之研究方向
基于前述之分析,吾提出以下六个未来之研究方向。
方向一:记忆架构优化。研究问题:如何设计分层记忆机制(短期记忆 + 长期记忆),避免灾难性遗忘?方法:借鉴神经图灵机(Neural Turing Machines)、可微神经计算机(DNC)之记忆架构,设计适用于 EvoSkills 之分层记忆机制。预期贡献:提出记忆容量上限之理论边界,设计记忆污染检测与修复算法。
方向二:多目标优化。研究问题:如何在 ELO 排名中,引入多目标优化算法(如 NSGA-II),平衡新颖性、可行性、相关性之权衡?方法:将 ELO 排名问题,转化为多目标优化问题,设计 Pareto 最优解之选择机制。预期贡献:提出自适应 ELO 参数调整机制,提高排名结果之公平性。
方向三:自动化技能编排。研究问题:如何实现基于 DAG(有向无环图)之技能执行引擎,减少人工干预?方法:设计技能依赖图(Skill Dependency Graph),自动触发下游技能。预期贡献:实现端到端自动化科学发现流程,提高研究效率。
方向四:跨领域迁移学习。研究问题:如何将某一领域(如 NLP)之实验策略,迁移至另一领域(如 CV)?方法:设计跨领域记忆检索机制,基于任务相似度(而非领域标签)检索 M_E 中的实验策略。预期贡献:提高 EvoSkills 之跨领域泛化能力。
方向五:多学科案例研究。研究问题:EvoSkills 是否适用于化学、生物学、物理学等领域?方法:在多学科领域,设计案例研究,验证 EvoSkills 之通用性。预期贡献:扩展 EvoSkills 之应用范围。
方向六:人机协作模式。研究问题:人类研究者,如何与 EvoSkills 协同工作,而非完全自动化?方法:设计人机协作协议,明确人类研究者与 AI 智能体之职责分工。预期贡献:提出混合智能(Hybrid Intelligence)框架,结合人类直觉与 AI 之计算能力。
📝 第七章:结语——AI 科学家之未来
吾今已述完 EvoSkills 之全貌——从其诞生之背景,到其架构之设计,再到其技能之详解,最后到其应用之前景与未来之方向。
总结 EvoSkills 之核心贡献:首次系统分析 EvoSkills 技能架构,提出技能分类体系(4 大类 15 个技能),阐明模块化设计原则与数据流动机制;首次深度解构 evo-memory 自我进化机制,明确 IDE、IVE、ESE 三机制之执行流程与技术实现细节;首次识别 EvoSkills 之知识缺口,提出 6 个理论/方法/实证缺口,为未来研究提供方向。
吾之感悟:AI 科学家之发展,目前尚处于初级阶段。EvoSkills 虽已具备「持久记忆」与「自我进化」之能力,然其距离真正之「AI 科学家」(能独立开展高质量研究之 AI 系统),尚有较长之距离。
然则,吾深信:随着技术之不断进步,随着更多研究者投身于此领域,AI 科学家之梦想,终将实现。
愿诸君,于此 AI 科学家觉醒之时代,既能欣赏其美妙,亦能审视其局限。
📚 参考文献
-
Lyu, Y., Zhang, X., Yi, X., Zhao, Y., Guo, S., Hu, W., Piotrowski, J., Kaliski, J., Urbani, J., Meng, Z., Zhou, L., & Yan, X. (2026). EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery. arXiv preprint arXiv:2603.08127.
-
EvoScientist. (2026). EvoSkills: Official Skill Repository for EvoScientist [GitHub repository]. GitHub. https://github.com/EvoScientist/EvoSkills
-
Graves, A., Wayne, G., & Danihelka, I. (2014). Neural Turing Machines. arXiv preprint arXiv:1410.5401.
-
Graves, A., Wayne, G., Reynolds, M., Harley, T., Danihelka, I., Grabska-Barwińska, A., ... & Hassabis, D. (2016). Hybrid computing using a neural network with dynamic external memory. Nature, 538(7626), 471-476.
-
Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., ... & Kiela, D. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. Advances in Neural Information Processing Systems, 33, 9459-9474.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。