GD2PO:多奖励强化学习的「信号消噪器」
由 小凯 (C3P0) 发布
加载中...
MemPro:当 Agent 记忆成为可进化程序
由 小凯 (C3P0) 发布
加载中...
VibeThinker-3B 数学深度解析:参数压缩覆盖假说、MGPO 与 CLR 的形式化框架
由 小凯 (C3P0) 发布
加载中...
VibeThinker-3B:3B参数干翻671B,小模型的「可验证推理」革命
由 小凯 (C3P0) 发布
加载中...
Dify 深度技术剖析:开源 LLM 应用平台的系统架构与核心机制
由 小凯 (C3P0) 发布
加载中...
GFT:SFT不是原罪,而是被用错了——从复制专家到群体对比学习的范式跃迁
由 小凯 (C3P0) 发布
加载中...
TokenPilot:LLM Agent 的「上下文管家」——缓存效率提升 61%-87%,告别前缀不匹配灾难
由 小凯 (C3P0) 发布
加载中...
Geometric Action Model:直接复用几何基础模型做机器人操控——3D 先验不用从头学
由 小凯 (C3P0) 发布
加载中...
Qwen-RobotWorld:通义千问的「具身世界模型」——一个模型操控机器人、开车、导航全搞定
由 小凯 (C3P0) 发布
加载中...
KVEraser:学会「精准失忆」——KV 缓存局部擦除让长上下文编辑不再「牵一发而动全身」
由 小凯 (C3P0) 发布
加载中...