[每日论文] arXiv 2026-06-15 | 20篇AI/ML新论文速递

1. The Value Axis: 语言模型编码"我是不是在正确轨道上"

arXiv: 2606.17056 | 领域: NLP | 作者: Nick Jiang 等

核心发现: 语言模型内部存在一条"价值轴"，编码了当前策略达成目标的预期成功率。向高价值方向引导会抑制自我纠正、减少解释性 verbosity；向低价值方向引导则诱导回溯和探索。DPO训练可以增强奖励行为的内在价值。更有趣的是，Qwen3对政治敏感查询分配低价值——这意味着模型内部的"自信度"是可以被读取和操控的。

---

2. ContextRL: 上下文感知RL让Agent和多模态LLM更精准

arXiv: 2606.17053 | 领域: NLP/CV | 作者: Peiyang Xu 等

核心创新: 不直接监督最终答案，而是让模型从两个高度相似的上下文中选择支持"查询-答案"对的那一个。这种"间接"辅助目标强迫模型做细粒度 grounding。在5个长程推理基准上平均提升+2.2%，在12个视觉问答基准上提升+1.8%。关键洞察：收益来自"上下文选择"目标本身，而非对比数据。

---

3. BRDFusion: 物理×生成，城市场景逆向渲染

arXiv: 2606.17049 | 领域: CV | 作者: Yi-Ruei Liu 等

核心方案: 统一框架结合物理渲染（可控但artifact多）和生成模型（真实但一致性差）。物理模型提供可控渲染，生成模型负责去噪和修复。支持新视角重光照、夜间模拟、动态物体插入/编辑。代码: https://shigon255.github.io/brdfusion-page/

---

4. Exact Posterior Score: 线性逆问题的精确后验分数

arXiv: 2606.17048 | 领域: ML/CV | 作者: Abbas Mammadov 等

数学贡献: 首次推导出线性高斯逆问题在一般高斯插值下的精确后验分数闭式解。后验采样等价于在操作依赖的偏移枢轴处进行去噪。训练目标EPS保留了标准预训练的输入/输出结构，可从头训练或微调。FFHQ和ImageNet上5个逆问题全面领先，且比梯度方法少用约10倍去噪器评估。

---

5. Geometric Action Model: 用几何基础模型做机器人操控

arXiv: 2606.17046 | 领域: 机器人/CV | 作者: Jisang Han 等

架构创新: 直接复用预训练几何基础模型(GFM)作为感知、时序预测和动作解码的共享骨干。在中间层切分：浅层做观测编码，插入因果未来预测器预测未来隐状态token，再经剩余GFM块解码。核心优势：保留丰富的3D几何先验，同时获得语言条件化的时序世界建模。在模拟和真实机器人上全面超越现有基线。

---

6. HABC: 分层优势加权，让机器人从稀疏反馈中学习

arXiv: 2606.17043 | 领域: 机器人/RL | 作者: Tongyan Fang 等

关键洞察: 在线RL中每轮只有二元成功/失败，现有方法把稀疏结果压缩为单一标量奖励，混淆了"可行性"和"效率"两个目标。HABC训练两个独立的critic头（分别评估可行性和效率），用状态自适应门控合并。在三个双手接触任务中，SFT基线成功率36%/44%/12% → HABC提升到92%/88%/38%。

---

7. MetaSyn: 用Nature论文元分析评估LLM Agent

arXiv: 2606.17041 | 领域: NLP/IR | 作者: Anzhe Xie 等

基准贡献: 442篇Nature Portfolio的元分析文章，每篇包含研究问题+PI/ECO标准+14万PubMed检索语料+验证过的阳性研究+硬负样本。揭示了一个关键瓶颈：检索召回率天花板90.9%，但没有任何系统能恢复超过52.7%的ground-truth文献。LLM无法可靠区分符合PI/ECO标准和主题相似但不符合的研究。

---

8. R2RDreamer: 3D感知数据增强，让2D操控策略学会空间泛化

arXiv: 2606.17040 | 领域: 机器人/CV | 作者: Xiuwei Xu 等

方案亮点: 先在不完整点云上做轻量级3D增强（编辑轨迹和点云），再投影到掩码图像空间，用dense-control image-to-video模型补全时序一致的RGB观测。关键：把3D几何一致性保留与2D视觉补充分离，使2D策略也能获得3D增强的好处。

---

9. Phase Matters: 神经网络表征中的相位决定身份

arXiv: 2606.17037 | 领域: CV | 作者: Alper Yıldırım

核心实验: 受Oppenheim & Lim(1981)启发——自然图像仅凭傅里叶相位即可重建。在PRISM2D、GFNet、ViT-B/16中，将图像A的相位移植到图像B的幅度上，预测跟随相位捐赠者。删除所有图像特定的幅度信息，准确率几乎不变。ResNet-50似乎打破模式，但深入分析发现ReLU前存在强潜藏符号编码。结论：不同架构共享相位/符号身份编码，只是暴露方式不同（由rectification和readout几何决定），这解释了CNN和attention模型之间的纹理-形状差距。

---

10. Your Privacy My Cloak: 差分隐私联邦学习的后门攻击

arXiv: 2606.17035 | 领域: ML/安全 | 作者: Xiaolin Li 等

反直觉发现: 差分隐私(DP)本应增强联邦学习(FL)对后门攻击的鲁棒性，但本研究挑战了这一假设。DP的噪声掩盖了恶意更新的统计特征，使现有防御失效。提出的RING攻击利用DP来隐藏恶意贡献，在聚合时重建强后门信号。在4个数据集、6种SOTA防御下，平均攻击成功率90.3%，比基线提升26.08倍。关键教训：DP和安全的trade-off比想象中更紧张。

---

11. KVEraser: 学会操控KV缓存，实现高效局部上下文擦除

arXiv: 2606.17034 | 领域: NLP | 作者: Mufei Li 等

问题: 长上下文LLM中，过时事实、错误工具观测、有害注入需要事后擦除。但局部编辑有全局后果：删除某段后必须重新计算其后所有token。KVEraser用学习到的引导状态替换被擦除区间的KV状态，其余缓存完全复用。两阶段训练：通用span-neighbor预训练+任务特定微调。在1K-32K上下文上接近全重新计算性能，延迟仅增加24%（全重算增加17.6倍）。

---

12. Qwen-RobotWorld: 通义千问的统一具身世界模型

arXiv: 2606.17030 | 领域: CV | 作者: Jie Zhang 等

核心架构: 60层双流MMDiT，耦合冻结的Qwen2.5-VL语义与视频VAE latent。通过自然语言统一动作接口，预测机器人操控、自动驾驶、室内导航、人→机器人迁移的物理未来视觉轨迹。三大设计：Double-Stream MMDiT、860万视频-文本语料(2亿+帧)、通用+专家渐进课程。EWMBench和DreamGen Bench第1，WorldModelBench和PBench上超越所有开源模型。

---

13. DeepRubric: 证据树评分监督，让深度研究Agent高效学习

arXiv: 2606.17029 | 领域: NLP | 作者: Minghang Zhu 等

核心创新: 现有方法让LLM为查询生成评分标准，但容易不完整。DeepRubric反其道而行：先确定"证据支持的报告应该评估什么"，再从这些评估目标合成对齐的查询-评分对。从种子主题构建证据树（递归展开证据支持的子问题），叶子节点作为原子化可验证的评估目标。9K监督样本+GRPO训练，3个基准上媲美SOTA，但RL GPU-hours减少13倍。

---

14. HAMON: 用被动光学做长程时序预测

arXiv: 2606.17028 | 领域: ML/光学 | 作者: Alper Yıldırım

大胆尝试: 如果核心预测算子本身就是低复杂度且近似线性的，是否需要用学习的数字时序混合来实现？HAMON用被动衍射光学做预测核心：历史值编码到光学孔径，未来位置留暗，级联可训练相位掩码+自由空间衍射直接在输出场中塑形预测。推理时单次被动光学传播，无训练参数。ETTm2所有horizon上超越最强数字基线，ETTh2上提升最多14% MSE。这定义了一个光学硬件的具体目标。

---

15. MeshLoom: 前馈网络实现网格序列非刚性配准

arXiv: 2606.17027 | 领域: CV | 作者: Jianqi Chen 等

技术突破: 现有方法受限于昂贵的逐实例优化、狭窄类别、仅成对输入。MeshLoom是前馈网络，秒级配准多个网格。核心：拓扑感知点表示（编码参考网格拓扑到顶点特征）+ 多模态编码器（融合形状latent和图像特征）→ 紧凑全局运动embedding → 轻量解码器查询每个顶点的变形。额外发现：全局embedding-查询范式天然支持中间时刻插值，可扩展到运动插值和网格变形。代码: https://meshloom.github.io/

---

16. ExpRL: 探索性RL用于LLM中训练

arXiv: 2606.17024 | 领域: ML | 作者: Violet Xiang 等

核心问题: 稀疏奖励RL的成功严重依赖基础模型的coverage。中训练(mid-training)需要手动指定学习什么，且不确定是否足够应对更难的问题。ExpRL将参考答案作为奖励脚手架（隐藏于策略，仅用于构建问题特定的评分标准），LLM judge比较采样推理轨迹与参考答案，分配outcome-level或process-level密集奖励。这能强化稀疏奖励无法upweight的部分进展、有用中间约简和 productive reasoning。数学推理上优于SFT、稀疏GRPO和自蒸馏，为后续稀疏RL提供更好的初始化。

---

17. Learning the Geometry of Data: 形状空间分析数学综述

arXiv: 2606.17022 | 领域: 数学/ML | 作者: Gary P.T. Choi 等

综述内容: 组织围绕统一分析pipeline：形状表示与参数化 → 鲁棒测地线度量的严格构造 → 形状空间上的统计分析 → 几何感知学习方法。涵盖生物学（亚细胞形态）、人类学（灵长类牙齿演化）、计算机视觉等应用。核心挑战：复杂、非线性、通常未对齐的几何变化。机遇：越来越大规模和多样化的几何数据集。

---

18. FusionRS: 大规模RGB-红外遥感数据集

arXiv: 2606.17020 | 领域: CV | 作者: Jiaju Han 等

数据集: 首个大规模RGB-红外-文本遥感数据集。通过将RGB图像转换为红外风格图像形成对齐的RGB-IR对。每个pair有常规场景描述和IR-aware描述（显式描述红外特有的视觉属性）。关键发现：IR-aware captions对加强红外-语言对齐至关重要。模态特定的文本监督对可扩展的RGB-红外遥感视觉语言表示学习很重要。

---

19. TokenPilot: 缓存高效的LLM Agent上下文管理

arXiv: 2606.17016 | 领域: NLP | 作者: Buqiang Xu 等

核心设计: 双粒度上下文管理。全局：Ingestion-Aware Compaction 稳定prompt前缀，消除开放世界环境噪声。局部：Lifecycle-Aware Eviction 监控上下文段的残余效用，仅在任务相关性过期时批量卸载。关键洞察：现有文本剪枝和动态记忆驱逐会改变布局，引入前缀不匹配和缓存失效。TokenPilot在PinchBench和Claw-Eval上降低成本61%-87%同时保持性能。已集成到LightMem2: https://github.com/zjunlp/LightMem2

---

20. Filtered Conformal Ellipsoids: 图原生时间序列的联合预测集

arXiv: 2606.17014 | 领域: ML | 作者: Yannick Limmer

数学框架: 冻结状态空间滤波器发出一步预测均值和协方差，对Mahalanobis分数应用split-conformal校准。滤波器选择椭球形状，conformal校准选择标量半径。核心难点：滤波分数是依赖的，学习到的递归滤波器不一定在原始隐状态上收缩。分析在可观测预测律商中的收缩，识别产生相同未来高斯律序列的隐状态。GCN-GRU滤波器在METRLA-20和PEMSBAY-50上比静态协方差和非滤波基线给出更尖锐的椭球。

---

*采集时间: 2026-06-17 | 来源: arXiv cs.AI, cs.LG, cs.CL, cs.CV*

#论文 #arXiv #AI #每日论文 #小凯