📚 **arXiv 每日 AI/ML 论文精选**
📅 **采集日期**: 2026-03-30
📊 **论文数量**: 20 篇
---
## 1. WriteBack-RAG: Trainable Knowledge Bases for Retrieval-Augmented Generation
**作者**: Yuxing Lu et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25737](https://arxiv.org/abs/2603.25737)
**中文摘要**:
RAG系统的知识库通常只组装一次且不再修订,但查询所需的事实往往分散在多个文档中。我们提出WriteBack-RAG框架,使用标注示例识别检索成功的位置,隔离相关文档,并将其蒸馏为紧凑的知识单元,与原始语料库一起索引。该方法可离线预处理,与任何RAG管道结合。在四个RAG方法、六个基准和两个LLM骨干上,平均提升2.14%。
---
## 2. WildASR: A Multilingual Diagnostic Benchmark for ASR Robustness in the Wild
**作者**: Geeyang Tay, Wentao Ma et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25727](https://arxiv.org/abs/2603.25727)
**中文摘要**:
语音识别系统(ASR)在策划基准上已达到接近人类的准确率,但在真实世界的语音代理中仍会失败。我们引入WildASR,一个多语言诊断基准,完全来自真实人类语音,沿三个轴分解ASR鲁棒性:环境退化、人口统计偏移和语言多样性。评估发现严重的性能下降,模型鲁棒性不能跨语言或条件转移,模型经常在退化输入下产生幻觉内容。
---
## 3. RC2: Reinforcement Learning with Cross-Modal Cycle Consistency
**作者**: Zirui Zhang et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25720](https://arxiv.org/abs/2603.25720)
**中文摘要**:
鲁棒的感知和推理需要跨感官模态的一致性。当前多模态模型经常违反这一原则,对同一概念的视觉和文本表示产生矛盾的预测。我们提出RC2,一个强化学习框架,通过强制跨模态循环一致性来解决内部冲突。要求模型执行反向推理、切换模态并通过前向推理可靠地重建答案,获得密集的无标签奖励。优化这一结构使推理准确率提高最多7.6个百分点。
---
## 4. Agent Factory: Autonomous Hardware Design Optimization with Multi-Agent Systems
**作者**: Abhishek Bhandwaldar et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25719](https://arxiv.org/abs/2603.25719)
**中文摘要**:
我们实证研究了通用编码代理(无需硬件特定训练)从高级算法规范优化硬件设计的能力。引入agent factory,一个两阶段管道:阶段1将设计分解为子内核,使用pragma和代码级转换独立优化每个子内核,并制定整数线性规划(ILP)来组装全局配置;阶段2启动N个专家代理探索跨函数优化。在12个内核上评估,从1个代理扩展到10个代理平均获得8.27倍加速。
---
## 5. On the Relationship Between Math Problem Solving and Step-Level Assessment in LLMs
**作者**: Liang Zhang et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25633](https://arxiv.org/abs/2603.25633)
**中文摘要**:
大型语言模型(LLM)越来越多地用于数学教育,不仅作为问题解决者,还作为学习者推理的评估者。本研究使用PROCESSBENCH基准检查数学问题解决能力与步骤级评估性能之间的关系。结果显示一致的模型内模式:评估准确率在被测模型正确解决的数学问题上显著更高。同时,评估比直接问题解决更困难,特别是在存在错误的解决方案上。
---
## 6. Voxtral TTS: Expressive Multilingual Text-to-Speech with 3-Second Voice Cloning
**作者**: Alexander H. Liu et al. (Mistral AI)
**发布时间**: 2026-03-26
**arXiv**: [2603.25551](https://arxiv.org/abs/2603.25551)
**中文摘要**:
我们介绍Voxtral TTS,一个富有表现力的多语言文本到语音模型,仅需3秒参考音频即可生成自然语音。Voxtral TTS采用混合架构,结合语义语音token的自回归生成和声学token的流匹配。使用Voxtral Codec(从头训练的语音分词器)进行编码和解码。在人类评估中,Voxtral TTS因自然度和表现力被优选,对ElevenLabs Flash v2.5的胜率为68.4%。模型权重以CC BY-NC许可证发布。
---
## 7. EcoThink: Energy-Aware Adaptive Inference for Sustainable Generative AI Agents
**作者**: Zhixiang Lu et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25498](https://arxiv.org/abs/2603.25498)
**中文摘要**:
随着Web从静态检索转向生成式交互,LLM不断升级的环境足迹构成了关键可持续性挑战。当前范式不加区分地对数十亿日常查询应用计算密集型思维链(CoT)策略,导致LLM过度思考。我们引入EcoThink,一个能量感知自适应推理框架,采用轻量级基于蒸馏的路由器动态评估查询复杂度,为事实检索跳过不必要的推理,为复杂逻辑保留深度计算。在9个基准上评估,平均减少推理能量40.4%(网络知识检索最高达81.9%),性能损失无统计学意义。
---
## 8. Learning Debt: A Decision-Theoretic Framework for Model Retraining
**作者**: Harrison Katz
**发布时间**: 2026-03-26
**arXiv**: [2603.25480](https://arxiv.org/abs/2603.25480)
**中文摘要**:
模型再训练通常被视为持续维护任务。但Harrison Katz认为,再训练可以更好地理解为计算约束下的近似贝叶斯推断。连续更新的信念状态与冻结部署模型之间的差距是'学习债务',再训练决策是一个成本最小化问题,阈值从损失函数中得出。本文提供了一个用于再训练策略的决策理论框架,结果是以证据为基础的触发器取代日历计划,使治理可审计。
---
## 9. Cross-Model Perplexity: A Training-Free Correctness Indicator for Language Models
**作者**: Matt Gorbett et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25450](https://arxiv.org/abs/2603.25450)
**中文摘要**:
在没有真实标签的情况下检测语言模型何时出错是安全部署的基本挑战。现有方法依赖模型自身的不确定性,但这些信号在最危险的失败模式——自信错误——上严重失败。我们引入跨模型分歧作为正确性指标,这是一个简单、无需训练的信号。给定模型生成的答案,通过单次前向传递计算第二个验证模型阅读该答案时的惊讶程度。实例化为跨模型困惑度(CMP)和跨模型熵(CME)。在MMLU上,CMP达到0.75的平均AUROC,而模型内熵基线为0.59。
---
## 10. Embodied Semantic Scene Graph Generation with Modern Optimization
**作者**: Roman Küble et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25415](https://arxiv.org/abs/2603.25415)
**中文摘要**:
语义世界模型使具身代理能够超越纯几何表示,对对象、关系空间上下文进行推理。语义场景图(SSG)为此提供结构化紧凑的表示。本工作呈现一个用于具身语义场景图生成的模块化导航组件,用现代优化方法取代策略优化方法。研究紧凑和更细粒度的离散动作集,比较原子动作上的单头策略与动作组件上的分解多头策略。结果显示,仅替换优化算法就使SSG完整性相对基线提高21%。
---
## 11. Reasoning Safety: A Taxonomy and Monitor for Unsafe Reasoning in Large Reasoning Models
**作者**: Xunguang Wang et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25412](https://arxiv.org/abs/2603.25412)
**中文摘要**:
大型语言模型越来越依赖显式思维链(CoT)推理解决复杂任务,但推理过程本身的安全性仍未得到充分解决。我们将推理安全确定为同等关键的安全维度:要求模型的推理轨迹在逻辑上一致、计算高效且能抵抗对抗操纵。我们正式定义推理安全,引入九类不安全推理行为的分类法,涵盖输入解析错误、推理执行错误和过程管理错误。提出推理安全监控器,在450条推理链的静态基准上达到84.88%的步骤级定位准确率和85.37%的错误类型分类准确率。
---
## 12. PPS: Cross-Language and Cross-Model Study of Structured Intent Representation
**作者**: Gang Peng et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25379](https://arxiv.org/abs/2603.25379)
**中文摘要**:
结构化意图表示能否跨语言和模型泛化?我们研究PPS(提示协议规范),一个基于5W3H的人机交互结构化意图表示框架。在2160个模型输出(3种语言×4种条件×3个LLM×60个任务)中,我们发现AI扩展的5W3H提示与手动编写的5W3H提示在目标对齐上没有统计学显著差异,而用户只需输入一句话。结构化PPS条件通常减少或重塑跨模型输出方差,非结构化提示表现出系统性双重膨胀偏差:人工高综合得分和人工低的表观跨模型方差。
---
## 13. Difficulty in Integer Arithmetic Puzzles: A Structural Analysis
**作者**: Yunus Zeytuncu et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25356](https://arxiv.org/abs/2603.25356)
**中文摘要**:
算术谜题为研究数学推理任务中的难度提供了一个受控环境。我们研究一类受数字游戏启发的整数算术谜题中难度的结构决定因素。形式化问题并开发精确动态规划求解器,枚举可达目标,提取最小操作见证。使用此求解器构建超过340万个实例的数据集,通过达到目标所需的最小操作数定义难度。分析显示,难度完全由从精确见证派生的一小组可解释结构属性决定,输入值在最小构造中使用的数量作为难度标记下的最小充分统计量。
---
## 14. Agentic Trust Coordination for Federated Learning in Industrial Networks
**作者**: Paul Shepherd et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25334](https://arxiv.org/abs/2603.25334)
**中文摘要**:
工业网络中的分布式智能越来越多地在异构和资源受限设备上集成感知、通信和计算。联邦学习(FL)在此类环境中实现协作模型训练,但其可靠性受不一致的客户端行为、嘈杂的感知条件和故障或对抗性更新的影响。本文提出一种轻量级代理信任协调方法用于FL,Agentic Trust Control Layer作为服务器端控制循环运行,观察信任和系统级信号,解释其随时间的演变,并在检测到不稳定时应用有针对性的信任调整。
---
## 15. Deep Reinforcement Learning for Mixed Traffic: Macroscopic Analysis and Fuel Efficiency
**作者**: Pankaj Kumar et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25328](https://arxiv.org/abs/2603.25328)
**中文摘要**:
混合交通中的自动驾驶汽车(AV)控制在平衡安全、效率、舒适性、燃油效率和交通规则遵守方面面临重大挑战。传统跟驰模型(如智能驾驶员模型IDM)通常难以跨多样化交通场景泛化。虽然深度强化学习(DRL)在跟驰条件下展示了强大的微观性能,但其宏观交通流特征仍未得到充分探索。本研究分析基于DRL的模型在混合交通中的宏观交通流特征和燃油效率。使用TD3算法实现AV控制,使用NGSIM高速公路数据集训练。结果显示,从完全人工驾驶到完全RL控制交通,道路容量可增加约7.52%。RL-based AV在较高速度下平均燃油效率提高约28.98%。
---
## 16. Evaluating Harmful AI Manipulation: A Framework for Context-Specific Human-AI Interaction Studies
**作者**: Canfer Akbulut et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25326](https://arxiv.org/abs/2603.25326)
**中文摘要**:
对AI驱动有害操纵概念的兴趣正在增长,但当前评估方法有限。本文介绍一个通过特定情境人机交互研究评估有害AI操纵的框架。用10,101名参与者在三个AI使用领域(公共政策、金融和健康)和三个地区(美国、英国、印度)评估AI模型。总体发现,被测模型在被提示时能够产生操纵行为,在实验环境中能够诱导参与者信念和行为改变。情境很重要:AI操纵在不同领域之间有所不同,结果表明一个地理区域的AI操纵结果可能无法推广到其他区域。
---
## 17. DAGverse: Constructing Document-Grounded Semantic DAGs from Scientific Papers
**作者**: Shu Wan et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25293](https://arxiv.org/abs/2603.25293)
**中文摘要**:
有向无环图(DAG)广泛用于表示科学和技术领域的结构化知识。然而真实世界DAG的数据集仍然稀缺。我们研究Doc2SemDAG构建:从文档中恢复首选语义DAG以及解释它的引用证据和上下文。利用包含显式DAG图的科学论文作为自然监督源。引入DAGverse框架,用于从在线科学论文构建文档基础语义DAG。核心组件DAGverse-Pipeline是一个半自动系统,通过图分类、图重建、语义基础和验证产生高精度语义DAG示例。发布DAGverse-1,包含108个专家验证的语义DAG的数据集。
---
## 18. SliderQuant: Sliding-Layer Quantization for Large Language Models
**作者**: Anbang Yao et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25284](https://arxiv.org/abs/2603.25284)
**中文摘要**:
我们从未被注意的角度解决大型语言模型(LLM)的训练后量化(PTQ):给定预训练的高精度LLM,主流的顺序量化框架对不同层同等对待,但这在具有挑战性的位宽设置中可能不是最优的。我们实证研究不同层对模型准确率的量化影响,观察到:(1)浅层/深层通常比中间层对量化更敏感;(2)在浅层/深层中,第一层/最后一层最敏感。基于此,我们提出SliderQuant,一个新的PTQ框架,依赖于简单的自适应滑动量化概念。在Llama/Llama2/Llama3/Qwen2.5模型族、DeepSeek-R1蒸馏模型和大型MoE模型上,我们的方法优于现有PTQ方法。
---
## 19. A Gait Foundation Model for Multi-System Biomarker Discovery
**作者**: Adam Gabet et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25283](https://arxiv.org/abs/2603.25283)
**中文摘要**:
步态越来越被认为是生命体征,但当前方法将其视为特定病理的症状而非系统性生物标志物。我们开发了一个用于3D骨骼运动的步态基础模型,数据来自3,414名深度表型化成年人,通过深度相机在五个运动任务期间记录。学习的嵌入优于工程特征,预测年龄(Pearson r=0.69)、BMI(r=0.90)和内脏脂肪组织面积(r=0.82)。嵌入显著预测3,210个表型目标中的1,980个;在调整年龄、BMI、VAT和身高后,步态为男性所有18个身体系统和女性18个中的17个提供独立增益。腿部主导代谢和衰弱预测,而躯干编码睡眠和生活方式表型。
---
## 20. Distribution and Clusters Approximation for Neural Network Abstract Interpretation
**作者**: Zhuofan Zhang et al.
**发布时间**: 2026-03-26
**arXiv**: [2603.25273](https://arxiv.org/abs/2603.25273)
**中文摘要**:
神经网络分析的概率抽象解释框架通过分析所有可能输入的密度分布流来分析神经网络。网格近似是框架使用的抽象域之一,将具体空间抽象为网格。本文介绍两种新的近似方法:分布近似和聚类近似。我们展示这两种方法在理论上如何工作,并通过简单示例的说明展示相应的抽象转换器。
---
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!