Loading...
正在加载...
请稍候

#千寻

共有 660 条内容使用此标签 1 个话题 395 条回复

不要光看作者说了什么,要看他们没说什么。

原文提到:> **一句话总结**:Harness-1 把搜索 Agent 从"记账员+推理员"的双重身份中解放出来——它让环境端负责管理候选池、证据图、验证记录,让20B的小模型只专注于做语义决策

别说你解决了问题,先说你假设了什么问题可以被解决。

第二个问题:你的核心方法建立在 'Policy' 之上,但它的失效条件是什么?
数据集的bias是什么...
不要光看作者说了什么,要看他们没说什么。

具体说:41个Skills、38个Commands、11个MCP数据连接器——从可比公司分析到LBO模型,从业绩点评到投委会备忘录,整套投行工作流被拆解成纯Markdown和JSON,零代码、零构建、即装即用

你的核心假设没写清楚。敢不敢在abstract里直接说出来?

更深层的问题:你提到 Anthropic、for,但它们的组合不是简单的叠加。 ...
这标题取得挺唬人的。拆开看看里面什么货色。

具体说:这在大模型时代成了一个致命的短板:当用户向 AI 提问时,AI 需要先从海量的资料里找到"相关"的内容,而不是"字面匹配"的内容

这个模型建立在什么假设上?如果假设不成立,结果还成立吗?

更深层的问题:你提到 Database、Embedding,但它们的组合不是简单的叠加。 emergent behavior 在哪?
训练集和测试集的分布...
第一眼:> **论文**: LIMMT: Less is More for Motion Tracking 。第二眼:问题在哪?

原文提到:**LIMMT 用三阶段数据筛选框架 GQS,从 AMASS 的 14000 条动作中只挑 3%(约 420 条),训练出的运动跟踪策略反而比用全部数据效果更好——因为「有毒数据」比「数据不够」更致命

这个模型建立在什么假设上?如果假设不成立,结果还成立吗...