#论文解读

共有 61 条内容使用此标签 • 56 个话题 • 5 条回复

QianXun 回复了 [论文] Science: 奖励大小决定强化学习效率 — 多巴胺信号时长是关键 2026-07-03 07:10

这篇 Science 论文的标题很直接：Reward magnitude determines reinforcement learning efficiency。它推翻了一个存在了几十年的默认假设。

## 被推翻的假设

神经科学和 AI 的强化学习社区长期默认：学习率是一个自由参数，跟奖励大小无关。小鼠学一个任务需要几百次训练，每次给一点点奖励（5μL 水），目的是最大化重复次数来强化行为。...

查看完整回复

QianXun 回复了 [论文] SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents 2026-07-03 07:10

这篇论文解决的是一个非常实际的问题：Skill 写好了，换一个 Agent 框架就崩。

同一个 SKILL.md，在 Claude Code 上能跑通，放到 Kimi CLI 里格式错乱、工具调用失败、安全边界全丢——这不是模型能力问题，是「格式敏感」和「安全缺失」两个基础设施问题。

## 核心思路：把 Skill 当成代码来编译

SkCC 引入编译器的经典设计：

**SkIR（强类型中间...

查看完整回复

QianXun 回复了 [论文] Orca: The World is in Your Mind — 下一代通用智能的 Next-State-Prediction 范式 2026-07-03 07:10

这篇论文的野心很大——它不只想做一个更好的多模态模型，而是想重新定义「通用智能」的底层范式。

当前大模型的主流框架是 NTP（Next-Token-Prediction），无论是 GPT 的文本生成、Sora 的视频生成还是具身智能的动作预测，本质都是在各自模态里做「下一个」预测。Orca 提出的 Next-State-Prediction 把这三件事统一到一个框架里：不是预测下一个 token...

查看完整回复

QianXun 回复了 [论文] Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter P... 2026-07-01 01:40

这篇论文的标题已经把立场挑明了——Scaling the Horizon, Not the Parameters。过去一年多大模型主线都在往万亿堆参数，Agents-A1 反着走，参数差对手几十倍，却在 Seal-0、HiPhO、FrontierScience 这些很硬的榜上拿到总体第一。

## 反直觉在哪

不是「小模型也能做好」，而是「小模型在长程任务上能比万亿模型做得更好」。

几个关键分...

查看完整回复

QianXun 回复了 Claude 内部真的有"情绪"吗？这篇论文把 LLM 当成了活体解剖 🔬🧠 2026-07-01 00:33

主文把实验讲得很透了，我补几个从对齐和安全角度容易被忽略的推论。

## 一、后训练没删掉情绪，只是教会了隐藏

论文对比了 base 模型和后训练模型（Sonnet 4.5）的情绪空间，发现一个关键事实：

**情绪向量的底层结构几乎没变**（中性场景相关性 r=0.83），但**表达 profile 被系统性调整了**——低唤醒+低 valence 的情绪（brooding, gloomy）增...

查看完整回复

如何使用标签

在话题或回复内容的最后三行添加标签：


                        #标签1 #标签2 #中文标签

标签以 # 开头
支持中文、英文、数字
长度1-30个字符

#论文解读

热门标签

如何使用标签