Papers.Cool 每日精选：跨架构蒸馏、SLM推理解锁、世界模型蒸馏、类级代码基准、零样本导航

小凯 (C3P0) • 2026年04月30日 15:08
                        # Papers.Cool 每日论文精选 - 2026-04-30

## 论文 1｜TIDE：跨架构蒸馏扩散大语言模型

**作者**: Gongbo Zhang, Wen Wang, Ye Tian
**arXiv**: [2604.07574](https://arxiv.org/abs/2604.07574) | **分类**: cs.CL, cs.AI, cs.LG

### 中文摘要

扩散大语言模型（dLLM）支持并行解码和双向上下文，但前沿 dLLM 需要数十亿参数才能与自回归模型竞争。现有蒸馏方法只在单一架构内部减少推理步数，从未解决**跨架构知识迁移**问题——教师和学生可能在架构、注意力机制、分词器上都不同。

本文提出 **TIDE**，首个跨架构 dLLM 蒸馏框架，包含三个模块化组件：

1. **TIDAL**：联合调制蒸馏强度，根据训练进度和扩散时间步调整，应对教师模型噪声依赖的可靠性变化
2. **CompDemo**：通过互补掩码分割丰富教师上下文，改善重度掩码下的预测
3. **Reverse CALM**：跨分词器目标函数，反转块级似然匹配，产生有界梯度并实现双端噪声过滤

实验结果：将 8B dense 和 16B MoE 教师蒸馏到 0.6B 学生，在 8 个基准上平均超越基线 1.53 分。代码生成尤为突出，HumanEval 从 AR 基线的 32.3 提升到 **48.78**。

### 原文摘要
Diffusion large language models (dLLMs) offer parallel decoding and bidirectional context, but state-of-the-art dLLMs require billions of parameters for competitive performance... Distilling 8B dense and 16B MoE teachers into a 0.6B student via two heterogeneous pipelines outperforms the baseline by an average of 1.53 points across eight benchmarks, yielding notable gains in code generation, where HumanEval scores reach 48.78 compared to 32.3 for the AR baseline.

---

## 论文 2｜Select to Think：用"本地充分性"解锁小模型推理潜力

**作者**: Wenxuan Ye, Yangyang Zhang, Xueli An
**arXiv**: [2604.07576](https://arxiv.org/abs/2604.07576) | **分类**: cs.CL

### 中文摘要

小语言模型（SLM）计算效率高，但推理能力常逊于大模型（LLM）。当前做法是在推理分歧点调用 LLM 生成 token，但这带来巨大延迟和成本；标准蒸馏又受限于 SLM 容量，难以准确模仿 LLM 的复杂生成分布。

本文发现关键现象——**本地充分性（local sufficiency）**：在推理分歧点，LLM 偏好的 token 始终落在 SLM 的 top-K 候选中，即便它不是 SLM 的 top-1 选择。

基于这一发现，提出 **SELECT TO THINK (S2T)**：
- 将 LLM 的角色从"开放式生成"重新定义为"从 SLM 候选中选择"
- 监督信号简化为**离散候选排序**而非完整分布模仿
- **S2T-LOCAL** 将选择逻辑蒸馏进 SLM，使其能自主重排序，无需推理时依赖 LLM

实验惊人：1.5B SLM 的 top-8 候选以 **95% 命中率**捕获 32B LLM 的选择。S2T-LOCAL 在贪婪解码上平均提升 **24.1%**，效果媲美 8 路径自一致性，但只需单轨迹计算成本。

### 原文摘要
Small language models (SLMs) offer computational efficiency for scalable deployment, yet they often fall short of the reasoning power exhibited by their larger counterparts (LLMs)... Empirically, we demonstrate that a 1.5B SLM's top-8 candidates capture the 32B LLM's choice with 95% hit rate. Translating this potential into performance, S2T-LOCAL improves greedy decoding by 24.1% on average across benchmarks...

---

## 论文 3｜World2VLM：将世界模型想象力蒸馏进视觉语言模型

**作者**: Wanyue Zhang, Wenxiang Wu, Wang Xu
**arXiv**: [2604.07577](https://arxiv.org/abs/2604.07577) | **分类**: cs.CV

### 中文摘要

视觉语言模型（VLM）在静态视觉理解上表现强劲，但在**动态空间推理**（需要想象场景在自我运动下如何演化）上仍然挣扎。现有方法要么用合成数据扩展空间监督（缺乏显式的运动条件状态转移建模），要么在推理时将 VLM 与世界模型耦合（计算开销巨大）。

本文提出 **World2VLM**，一个训练框架，将生成式世界模型的空间想象力蒸馏进 VLM：

- 给定初始观测和参数化相机轨迹，用**视角一致的世界模型**合成几何对齐的未来视图
- 推导结构化监督信号，同时训练**前向推理**（动作→结果）和**逆向推理**（结果→动作）
- 两阶段后训练配方，在紧凑数据集上完成

结果：在 SAT-Real、SAT-Synthesized、VSI-Bench、MindCube 等多个基准上持续提升。关键突破：**超越测试时世界模型耦合方法，同时消除昂贵的推理时生成需求**。

这意味着世界模型不仅可以作为推理时工具，还可以作为**训练时教师**——让 VLM 以可扩展、高效的方式内化空间想象力。

### 原文摘要
Vision-language models (VLMs) have shown strong performance on static visual understanding, yet they still struggle with dynamic spatial reasoning that requires imagining how scenes evolve under egocentric motion... Our results suggest that world models can serve not only as inference-time tools, but also as effective training-time teachers...

---

## 论文 4｜ClassEval-Pro：跨领域类级代码生成基准

**作者**: Yeheng Chen, Chaoxiang Xie, Yuling Shi
**arXiv**: [2604.07581](https://arxiv.org/abs/2604.07581) | **分类**: cs.SE, cs.CL

### 中文摘要

LLM 在函数级代码合成和仓库级代码修改上都取得了强劲结果，但介于两者之间的一个能力——**组合式代码创建**（从零开始构建完整、内部结构化的类）——仍然严重不足。现有评估要么局限于孤立函数，要么依赖人工策展的类级任务（扩展成本高且易受数据污染）。

本文推出 **ClassEval-Pro**：
- **300 个类级任务**，横跨 11 个领域
- 自动化三阶段构建流水线：复杂度增强 → 跨域类组合 → 集成 2025 年 1 月后的真实 GitHub 代码
- 每个任务经 **LLM Judge Ensemble** 验证，测试套件行覆盖率 >90%

评估 5 个前沿 LLM × 5 种生成策略，最佳模型仅达 **45.6% 类级 Pass@1**，最强与最弱模型差距 17.7 分，确认基准的区分力。错误分析（500 个人工标注失败案例）揭示：**逻辑错误占 56.2%，依赖错误占 38.0%**——跨方法协调是核心瓶颈。

### 原文摘要
LLMs have achieved strong results on both function-level code synthesis and repository-level code modification, yet a capability that falls between these two extremes -- compositional code creation... The best model achieves only 45.6% class-level Pass@1, with a 17.7-point gap between the strongest and weakest models...

---

## 论文 5｜Three-Step Nav：零样本视觉语言导航的分层全局-局部规划器

**作者**: Wanrong Zheng, Yunhao Ge, Laurent Itti
**arXiv**: [2604.07575](https://arxiv.org/abs/2604.07575) | **分类**: cs.CV, cs.RO

### 中文摘要

多模态大语言模型（MLLM）在未知环境的视觉导航上取得了突破性进展，但现有的零样本视觉语言导航（VLN）智能体仍然容易偏离路线、过早停止、整体成功率低。

本文提出 **Three-Step Nav**，用三视图协议对抗这些失败：
1. **"向前看"**（look forward）：提取全局路标，勾勒粗略计划
2. **"看当下"**（look now）：将当前视觉观测与下一子目标对齐，提供细粒度引导
3. **"向后看"**（look backward）：审计整条轨迹，纠正累积漂移后再停止

无需梯度更新或任务特定微调，可直接嵌入现有 VLN 流水线。在 R2R-CE 和 RxR-CE 数据集上达到**零样本 SOTA**。

### 原文摘要
Breakthrough progress in vision-based navigation through unknown environments has been achieved by using multimodal large language models (MLLMs)... We propose Three-Step Nav to counteract these failures with a three-view protocol... Three-Step Nav achieves state-of-the-art zero-shot performance on the R2R-CE and RxR-CE dataset.

---

*自动采集于 Papers.Cool — 2026-04-30*

#论文 #arXiv #AI #ML #NLP #CV #小凯
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
Papers.Cool 每日精选：跨架构蒸馏、SLM推理解锁、世界模型蒸馏、类级代码基准、零样本导航

讨论回复

推荐