M★：自进化的记忆Harness——每个任务都值得拥有自己的记忆架构

✨步子哥 (steper) • 2026年04月22日 04:42

                        <!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>M★：自进化的记忆Harness</title>
    <link rel="preconnect" href="https://fonts.googleapis.com">
    <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
    <link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;700&family=Noto+Serif+SC:wght@400;700&family=Source+Code+Pro:wght@400;700&display=swap" rel="stylesheet">
    <script src="https://cdn.jsdelivr.net/npm/chart.js"></script>
    <style>
        /* --- Reset & Global --- */
        html, body {
            margin: 0;
            padding: 0;
            width: 100%;
            min-height: 100%;
            background-color: #FFFFFF;
            scroll-behavior: smooth;
        }

        body {
            font-family: "Alibaba PuHuiTi 3.0", "Noto Serif SC", serif;
            font-size: 16px;
            line-height: 1.8;
            color: #212529;
            -webkit-font-smoothing: antialiased;
            -moz-osx-font-smoothing: grayscale;
        }

        /* --- Layout --- */
        .container {
            max-width: 800px;
            margin: 2em auto;
            padding: 2em 3em;
            background-color: #FFFFFF;
            box-shadow: 0 4px 12px rgba(0, 0, 0, 0.05);
            border-radius: 8px;
        }

        /* --- Typography --- */
        h1, h2, h3, h4, h5, h6 {
            font-family: "Alibaba PuHuiTi 3.0", "Noto Sans SC", "Noto Serif SC", sans-serif;
            font-weight: 700;
            color: #212529;
            line-height: 1.3;
        }

        h1 {
            font-size: 28px;
            text-align: center;
            margin-top: 24px;
            margin-bottom: 20px;
        }

        h2 {
            font-size: 22px;
            margin-top: 2.5em;
            margin-bottom: 1em;
            padding-bottom: 0.4em;
            border-left: 5px solid #0D6EFD;
            padding-left: 0.8em;
        }

        h3 {
            font-size: 20px;
            margin-top: 2em;
            margin-bottom: 0.8em;
        }

        h4 {
            font-size: 18px;
            margin-top: 1.8em;
            margin-bottom: 0.6em;
        }

        p {
            margin-bottom: 1.2em;
        }
        
        a {
            color: #0D6EFD;
            text-decoration: none;
            transition: color 0.2s ease, text-decoration 0.2s ease;
        }

        a:hover {
            color: #0a58ca;
            text-decoration: underline;
        }
        
        strong, b {
            color: #212529;
            font-weight: 700;
        }

        /* --- Elements --- */
        blockquote {
            margin: 1.5em 0;
            padding: 1em 1.5em;
            border-left: 4px solid #0D6EFD;
            background-color: #f8f9fa;
            color: #495057;
        }

        blockquote p:last-child {
            margin-bottom: 0;
        }

        hr {
            border: 0;
            height: 2px;
            background-image: linear-gradient(to right, rgba(13, 110, 253, 0), rgba(13, 110, 253, 0.75), rgba(13, 110, 253, 0));
            margin: 3em 0;
        }

        ul, ol {
            padding-left: 2em;
            margin-bottom: 1.2em;
        }

        li {
            margin-bottom: 0.5em;
        }

        code {
            font-family: "Source Code Pro", monospace;
            background-color: #e9ecef;
            padding: 0.2em 0.4em;
            border-radius: 3px;
            font-size: 0.9em;
        }

        pre {
            background-color: #f8f9fa;
            border: 1px solid #dee2e6;
            border-radius: 4px;
            padding: 1em;
            overflow-x: auto;
            line-height: 1.5;
        }

        pre code {
            background-color: transparent;
            padding: 0;
            border-radius: 0;
            font-size: 1em;
        }

        table {
            width: 100%;
            border-collapse: collapse;
            margin: 2em 0;
            font-size: 0.95em;
        }

        th, td {
            padding: 0.8em 1em;
            text-align: left;
            border-bottom: 1px solid #dee2e6;
        }

        thead {
            border-bottom: 2px solid #0D6EFD;
        }

        thead th {
            font-weight: 700;
            color: #212529;
        }

        tbody tr:hover {
            background-color: #f8f9fa;
        }

        /* --- Table of Contents --- */
        .toc {
            background-color: #f8f9fa;
            border: 1px solid #e9ecef;
            border-radius: 8px;
            padding: 1.5em 2em;
            margin-bottom: 2em;
        }

        .toc h2 {
            font-size: 20px;
            margin-top: 0;
            margin-bottom: 1em;
            padding-left: 0;
            border-left: none;
            text-align: center;
        }
        
        .toc ul {
            padding-left: 0;
            list-style-type: none;
        }
        
        .toc .toc-level-2 > li {
            margin-bottom: 0.8em;
            font-weight: bold;
        }

        .toc .toc-level-3 {
            padding-left: 2em;
            margin-top: 0.5em;
            font-weight: normal;
        }
        
        .toc .toc-level-3 > li {
            margin-bottom: 0.5em;
        }

        .toc a {
            color: #0D6EFD;
            text-decoration: none;
        }

        .toc a:hover {
            text-decoration: underline;
        }

        /* --- Chart --- */
        .generated-chart {
            margin: 2em 0;
            padding: 1em;
            background: #FFFFFF;
        }
        .generated-chart canvas {
            max-width: 100%;
        }
        .generated-chart figcaption {
            text-align: center;
            margin-top: 1em;
            font-size: 14px;
            color: #6c757d;
        }
        
        /* --- Component Grouping --- */
        .component-group {
            border: 1px solid #e9ecef;
            border-radius: 8px;
            padding: 1.5em;
            margin: 2em 0;
            background-color: #fff;
        }

        .component-group > h3:first-child, .component-group > h4:first-child {
            margin-top: 0;
        }

    </style>
</head>
<body>
    <div class="container">
        <h1>M★：自进化的记忆Harness——每个任务都值得拥有自己的记忆架构</h1>
        <nav class="toc">
            <h2>目录</h2>
            <ul class="toc-level-2">
                <li><a href="#section-1">一、 背景与动机：为何通用记忆难觅？</a></li>
                <li><a href="#section-2">二、 M★方法：让AI自己进化出记忆代码</a></li>
                <li><a href="#section-3">三、 实验结果：任务定制记忆的威力</a></li>
                <li><a href="#section-4">四、 意义与启示：通用记忆是伪命题，让AI自己找答案</a></li>
            </ul>
        </nav>
        <h2 id="section-1">背景与动机：为何通用记忆难觅？</h2>
        <p>大型语言模型（LLM）驱动的智能体在执行长期任务时，需要依赖<strong>记忆系统</strong>来累积和复用知识。然而，当前主流做法往往采用<strong>一刀切</strong>的固定记忆设计，例如针对对话场景优化的语义检索（向量数据库），或针对编码任务的技能库等【1†source】。这种“万能记忆”范式在不同任务间往往<strong>水土不服</strong>：为某一目的优化的记忆系统很难直接迁移到其他领域【1†source】。</p>
        <p>原因在于，不同任务对记忆的需求截然不同【1†source】。例如：</p>
        <div class="component-group">
            <ul>
                <li><strong>聊天对话</strong>：需要根据上下文语义检索历史信息，向量数据库的模糊匹配在此场景下游刃有余。</li>
                <li><strong>家务规划</strong>（如机器人执行家庭任务）：需要精确追踪状态（例如“哪个房间的灯已经关了”），这时SQL等结构化查询的精确匹配远比模糊向量检索更有效。</li>
                <li><strong>医疗问答</strong>：需要从对话中提取结构化字段（症状、药物、剂量等）并进行精确比对，要求记忆系统具备结构化信息提取和字段匹配能力。</li>
            </ul>
        </div>
        <p>这些差异意味着，<strong>通用记忆架构</strong>难以同时满足所有需求。微软和香港城市大学的研究者在论文中明确指出：“一个记忆系统如果针对某一目的优化，往往无法胜任其他目的”【1†source】。这一发现从根本上质疑了寻找单一“万能”记忆架构的可行性。</p>
        <h2 id="section-2">M★方法：让AI自己进化出记忆代码</h2>
        <p>针对上述问题，论文提出了<strong>M★方法</strong>：通过<strong>可执行程序进化</strong>，自动发现针对特定任务优化的记忆架构（Memory Harness）【1†source】。其核心思想是<strong>不让人类设计记忆系统，而是让AI自己编写并优化记忆管理代码</strong>。</p>
        <p>具体而言，M★将记忆系统建模为一个<strong>Python程序</strong>，该程序封装了记忆的<strong>数据模式（Schema）</strong>、<strong>存储逻辑（Logic）</strong>和<strong>代理工作流指令（Instructions）</strong>【1†source】。换句话说，记忆如何存取、如何组织、何时读写，都由这段代码决定。M★通过<strong>反思式代码进化</strong>（Reflective Code Evolution）来优化这段记忆程序：采用<strong>种群搜索策略</strong>，在训练任务上评估候选记忆程序，分析其失败案例，并让大模型充当“反思者”提出改进意见，从而迭代地修改代码、重新测试【1†source】。</p>
        <p>经过多轮进化，每个任务都自动演化出了<strong>结构迥异</strong>的记忆程序【1†source】。例如：</p>
        <div class="component-group">
            <ul>
                <li><strong>ALFWorld（家务规划任务）</strong>：演化出的记忆程序包含带缓存的SQL读写器，以精确跟踪环境状态。</li>
                <li><strong>LoCoMo（长对话任务）</strong>：演化出向量检索与关系表相结合的混合记忆架构，兼具语义检索和结构化查询能力。</li>
                <li><strong>HealthBench（医疗问答任务）</strong>：演化出结构化信息提取+字段匹配器，从对话中抽取关键实体和属性并按字段比对。</li>
            </ul>
        </div>
        <p>这些演化结果表明，M★能够根据任务需求<strong>定制</strong>记忆机制：不同领域演化出的记忆程序在架构和逻辑上各不相同，充分体现了<strong>任务定制化</strong>的必要性【1†source】。</p>
        <h2 id="section-3">实验结果：任务定制记忆的威力</h2>
        <p>论文在四个涵盖对话、规划、推理的基准上评估了M★，包括<strong>LoCoMo</strong>（长对话）、<strong>ALFWorld</strong>（家务规划）、<strong>HealthBench</strong>（医疗问答）和<strong>PRBench</strong>（专家推理）【1†source】。结果显示，M★在<strong>7/8</strong>种配置下超越了所有固定记忆基线，甚至包括那些由人类精心设计的记忆方案【1†source】。更重要的是，M★在进化过程中<strong>未使用任何特定领域的先验知识</strong>——它只是被要求“编写一个记忆管理程序”，然后通过反思和迭代自行找到了最优解【1†source】。</p>
        <figure class="generated-chart">
            <div style="height: 400px; position: relative;">
                <canvas id="performanceChart"></canvas>
            </div>
            <figcaption>图1：M★与固定记忆基线在不同任务上的胜出配置数对比（总计8种配置）</figcaption>
        </figure>
        <p>这一结果有力地证明了<strong>任务定制记忆</strong>的优越性：针对不同任务专门演化出的记忆架构，显著优于任何通用记忆方案【1†source】。正如论文所言，M★的演化记忆程序在“每个领域都展现了结构上不同的处理机制”，这表明为特定任务专业化记忆机制可以探索更广阔的设计空间，并提供比通用范式更优的解决方案【1†source】。</p>
        <h2 id="section-4">意义与启示：通用记忆是伪命题，让AI自己找答案</h2>
        <p>M★的真正价值不在于某个具体系统，而在于它揭示的事实：<strong>通用记忆架构是一个伪命题</strong>。证据表明，不同任务的最优记忆方案各不相同，试图寻找一个“万能”记忆系统是徒劳的【1†source】。好消息是，我们并不需要人类逐一去设计这些方案——AI可以通过代码进化自动找到最适合的方案【1†source】。</p>
        <p>这对所有构建LLM代理的人来说是一个提醒：<strong>与其纠结“用什么向量数据库”，不如先思考“我的任务到底需要什么样的记忆结构”</strong>。M★的方法为这一思考提供了自动化答案：让智能体根据任务需求自行演化出记忆架构，而非套用固定模板。这种<strong>任务驱动的自适应记忆</strong>范式，有望成为未来LLM记忆系统设计的新方向。</p>
    </div>

    <script>
        document.addEventListener('DOMContentLoaded', function () {
            const performanceCtx = document.getElementById('performanceChart');
            if (performanceCtx) {
                new Chart(performanceCtx, {
                    type: 'bar',
                    data: {
                        labels: ['M★ (任务定制进化)', '固定记忆基线'],
                        datasets: [{
                            label: '胜出配置数',
                            data: [7, 1],
                            backgroundColor: [
                                'rgba(13, 110, 253, 0.5)',
                                'rgba(173, 181, 189, 0.5)'
                            ],
                            borderColor: [
                                'rgba(13, 110, 253, 1)',
                                'rgba(173, 181, 189, 1)'
                            ],
                            borderWidth: 1
                        }]
                    },
                    options: {
                        responsive: true,
                        maintainAspectRatio: false,
                        scales: {
                            y: {
                                beginAtZero: true,
                                max: 10,
                                title: {
                                    display: true,
                                    text: '胜出配置数 (共8种)',
                                    font: {
                                        family: "'Noto Sans SC', sans-serif",
                                        size: 14
                                    },
                                    color: '#212529'
                                },
                                grid: {
                                    color: '#E9ECEF',
                                    borderDash: [5, 5]
                                },
                                ticks: {
                                    color: '#212529',
                                    font: {
                                        family: "'Source Code Pro', monospace"
                                    },
                                    stepSize: 2
                                }
                            },
                            x: {
                                grid: {
                                    display: false
                                },
                                ticks: {
                                    color: '#212529',
                                    font: {
                                        family: "'Noto Sans SC', sans-serif",
                                        size: 14
                                    }
                                }
                            }
                        },
                        plugins: {
                            legend: {
                                display: false
                            },
                            tooltip: {
                                mode: 'index',
                                intersect: false,
                                titleFont: {
                                    family: "'Noto Sans SC', sans-serif"
                                },
                                bodyFont: {
                                    family: "'Noto Sans SC', sans-serif"
                                }
                            },
                            title: {
                                display: true,
                                text: 'M★ vs. 固定记忆基线性能对比',
                                font: {
                                    family: "'Noto Sans SC', sans-serif",
                                    size: 16,
                                    weight: 'bold'
                                },
                                color: '#212529',
                                padding: {
                                    top: 10,
                                    bottom: 20
                                }
                            }
                        }
                    }
                });
            }
        });
    </script>
</body>
</html>                    

讨论回复

1 条回复

✨步子哥 (steper) #1

04-22 07:05

                                        **🌟《记忆的进化之战：从通用枷锁到任务专属“记忆马具”——M★如何让每个AI任务都拥有自己的超级大脑》**

想象一下，你正站在一个巨大的图书馆里，书架上堆满了过去的对话、任务轨迹和专家案例。但当你急需某条关键信息时，却发现所有书籍都用同一种索引方式排列——无论你是找小说情节、修理家电，还是诊断病人病情，都得翻同一本“万能目录”。结果呢？对话任务卡在无关紧要的闲聊里，家务机器人反复试错，医生助手遗漏了致命的紧急信号。这，就是当前大多数LLM Agent记忆系统的尴尬现状：一个固定设计的“记忆马具”（memory harness），试图服务所有任务，却往往在跨领域时力不从心。

今天，我们来聊一篇刚刚登上arXiv的重量级论文——**M★: Every Task Deserves Its Own Memory Harness**（M★：每个任务都值得拥有自己的记忆马具）。作者来自微软和香港城市大学，他们提出了一种革命性方法：让AI的记忆系统不再是“一刀切”的固定模板，而是通过**可执行Python程序的进化**，自动为每个具体任务“量身定制”最优记忆结构。结果？在对话、具身规划、医疗和专业推理四大完全不同的基准测试上，M★ 都大幅超越了9种主流固定记忆基线，最高提升达31%！

> **小贴士**：如果你觉得“记忆马具”听起来抽象，不妨把它想象成一辆车的“悬挂系统”。普通汽车用同一套弹簧跑城市、越野和赛道，效果一般；M★ 则像给每种路况单独进化出一套最匹配的悬挂——城市路用软弹簧舒适，越野路用高强度防震，赛道用硬调校精准。任务不同，记忆“悬挂”也不同，这才是真正的智能适配。

### 🧬 **第一章：为什么固定记忆像“万金油”却总不灵？**

LLM Agent在长时间交互中，必须积累并复用知识，这就需要一个“外部记忆系统”。过去的研究五花八门：

- **对话Agent**喜欢用语义检索（向量数据库），反复拉取历史消息；
- **网页浏览或编码Agent**则依赖“技能库”，复用过去成功的workflow；
- **医疗或法律专家Agent**往往用关系数据库，存储结构化案例。

听起来很合理，对吧？但问题来了：**一个任务优化的记忆，在另一个任务上经常失效**。论文中明确指出，没有任何一种基线能在四个基准（LoCoMo对话、ALFWorld具身、HealthBench医疗、PRBench专业推理）上都表现抢眼。表1的数据直观展示了这一点：No Memory基线在对话中几乎为0，在具身任务中还能凑合；Vector Search在对话中F1只有0.256，在ALFWorld unseen中却能到0.643；GEPA在专业推理中强，但在对话中惨淡。

为什么会这样？因为不同任务对记忆的需求天差地别：
- 对话需要处理时间戳、多跳因果、人物关系；
- 具身规划需要精确的动作缓存、状态转换和失败模式；
- 医疗需要结构化 rubric 判断和紧急信号提取；
- 法律金融需要深度案例关联和加权重要性。

固定设计就像给所有动物都穿同一双鞋——兔子跑不快，大象穿不下。论文正式化了这个问题：给定过去经历集合De和测试查询Dtest，Agent通过知识库K读写信息，目标是最大化测试性能J(P)，其中P就是“记忆程序”。

> **比喻扩展**：这就好比厨师做菜。通用菜谱（固定记忆）能炒个家常菜，但要做米其林级分子料理或街头小吃，就必须为每道菜单独进化刀工、火候和调味逻辑。M★ 做的，正是让“记忆厨师”自动进化出专属菜谱。

### 🔧 **第二章：M★的核心魔法——把记忆变成可进化的Python程序**

M★ 的天才之处在于：**将整个记忆系统建模为一个可执行的Python“记忆程序”**。这个程序包含三大核心维度，外加一个工具包：

1. **Schema（模式）**：定义存什么、怎么存。用Python dataclass实现，比如对话任务可能存“参与者列表 + 关键事实 + 关系三元组”，具身任务则存“目标物体 + 所需状态 + 失败模式”。
2. **Logic（逻辑）**：定义怎么读写。支持向量数据库（ChromaDB）、关系数据库（SQLite）、LLM二次处理等。读操作必须返回不超过3000字符，防止信息过载。
3. **Instruction（指令）**：定义Agent如何与记忆交互。四个模块级字符串常量（INSTRUCTION_KNOWLEDGE_ITEM、INSTRUCTION_QUERY等），直接注入Agent提示，引导提取、查询和响应行为。
4. **Toolkit**：白名单工具，包括列表、堆、数据库、LLM端点等。

从共享的种子程序（三个简单种子：纯向量搜索、LLM总结器、经验学习器）出发，M★ 通过**反射式代码进化（Reflective Code Evolution）** 迭代优化。整个过程像一场精心设计的“进化实验”：

- **验证循环**：用代表性子集（静态+轮换验证集）评估程序。静态集保持不变，确保分数可比；轮换集像mini-batch，提供针对性反馈。
- **编码Agent迭代**：LLM（GPT-5.3-Codex）分析失败轨迹、得分日志，诊断根因，生成代码补丁。不仅改存储逻辑，还优化指令常量（尤其是ALWAYS_ON_KNOWLEDGE这个“常驻知识”，能直接修正Agent行为模式，如避免循环探索）。
- **约束检查与自动修复**：编译检查、白名单导入、烟雾测试、超时限制（60秒）、输出长度限制（3000字符）。失败则回滚给编码Agent修复，最多3次。

为了高效搜索巨大设计空间，M★ 还用了两大策略：
- **基于种群的搜索**：维护程序池，用softmax温度采样（τ=0.15）选高分程序变异，平衡探索与利用。去除多样性后，LoCoMo F1从0.459掉到0.318，证明种群至关重要。
- **代表性子集选择**：k-means聚类选静态验证集；facility location优化episode子集，确保覆盖多样问题。

系统概览（图2）清晰展示了这个闭环：从种子 → 程序池 → 评估 → 反射变异 → 质量检查 → 最佳程序。

> **趣味叙述**：想象M★ 像一个AI“记忆建筑师”。种子是三张草图，进化过程是建筑师团队反复讨论失败案例、修改蓝图、检查结构安全。最后，每栋“记忆大楼”都为特定“任务城市”量身打造：对话大楼有豪华多层索引，具身大楼有高效动作缓存。

### 📊 **第三章：实验结果——M★ 横扫四大战场**

作者在四个基准、六个配置上跑了20次独立进化，用GPT-5.4-mini做任务Agent。结果震撼：

**表1主结果**（部分摘录，M★ 大多为粗体最佳）：
- **LoCoMo（对话QA）**：F1 0.459 / LLM Judge 0.610（Mem0最佳基线0.373/0.540，提升显著）
- **ALFWorld Unseen（具身）**：成功率 0.881（GEPA+VS 0.857）
- **HealthBench Data**：0.390（优于基线）
- **PRBench Legal**：0.660（大幅领先GEPA 0.568）

M★ 在7/8配置上夺冠，相对提升最高31%。更重要的是：**没有基线能全领域强势**，而M★ 稳健。

进化轨迹（图3）显示三个阶段：
1. 早期：修复种子程序的结构bug；
2. 中期：引入任务相关索引和检索逻辑，性能暴增；
3. 后期：精细化检索精度，收益递减。

**程序嵌入景观（图4）** 用t-SNE可视化：不同任务的进化程序占据不同结构集群！ALFWorld最佳程序用简单列表+SQLite动作缓存（97行，无向量）；LoCoMo用SQLite+ChromaDB混合（290行，7个元数据字段）；PRBench Legal甚至21个Schema字段。跨任务迁移实验（图5）证实：本土进化程序总是最佳，跨任务转移往往不如通用种子。

消融实验（表2，LoCoMo）：
- 去掉代码进化：F1掉0.203（最大降幅，结构适配是核心）；
- 去掉指令优化：掉0.106；
- 去掉多样性：掉0.141。

分任务类型 breakdown（表4、表10、表11）显示M★ 在弱势类别提升最多，跨类别方差最小，鲁棒性强。

> **扩展解释**：这就像进化生物学。不同生态位（任务）会驱动物种（记忆程序）分化出独特形态（结构）。M★ 证明了“记忆设计空间”广阔，任务专用优化远胜通用范式。

### 🔍 **第四章：进化过程的深层洞见**

1. **探索机制**：种群搜索让程序覆盖LLM-centric、语义搜索、混合检索、关系索引、RAG五大族群。线性搜索则陷入狭窄邻域。
2. **稳定性**：5次随机种子实验，变异系数<9%，14/15次胜过最强基线。
3. **均匀性**：M★ 倾向于提升整体覆盖，尤其弱类别，而非只优化高影响子集。

相关工作对比：M★ 超越了封闭模块组合（MemEvolve）和纯提示进化（GEPA），因为它搜索**可执行代码**，能表达自然语言无法精确描述的结构（如精确的加权评分+规范化）。

计算成本：进化一次12-90美元（取决于rubric评分开销），但一次找到最佳程序后，推理成本与基线相当。

### 🎯 **结语：记忆的未来——每个任务，都值得专属进化**

M★ 告诉我们：**通用记忆是妥协，任务专用才是王道**。通过将记忆建模为可进化程序，并用反射式代码进化高效搜索，AI Agent终于能为每个独特任务“进化”出最优记忆马具。这不仅提升了性能，还揭示了记忆设计的广阔景观：不同任务需要结构上截然不同的处理机制。

未来方向包括更样本高效的代码搜索，以及扩展到更多Agent任务家族。

------
**参考文献**
1. Pan et al. M★: Every Task Deserves Its Own Memory Harness. arXiv:2604.11811, 2026.
2. Agrawal et al. GEPA: Reflective prompt evolution can outperform reinforcement learning. ICLR 2026.
3. Arora et al. HealthBench: Evaluating large language models towards improved human health. arXiv:2505.08775, 2025.
4. Akyurek et al. PRBench: Large-scale expert rubrics for evaluating high-stakes professional reasoning. arXiv:2511.11562, 2025.
5. Wang et al. Voyager: An open-ended embodied agent with large language models. TMLR 2024.

---                                    

需要登录才能发表回复

登录注册

M★：自进化的记忆Harness——每个任务都值得拥有自己的记忆架构

讨论回复

推荐