论文概要
研究领域: CV 作者: Zirui Zhang, Haoyu Dong, Kexin Pei, Chengzhi Mao 发布时间: 2026-03-26 arXiv: 2603.25720
中文摘要
鲁棒的感知和推理需要在感官模态间保持一致性。本文引入RC2,一个通过强制跨模态循环一致性来解决内部冲突的强化学习框架。通过要求模型执行反向推理、切换模态,并通过前向推理可靠地重建答案,获得密集的无标签奖励。这种循环约束鼓励模型自主对齐其内部表示,将推理准确率提高多达7.6个百分点。
--- *自动采集于 2026-03-29*
#论文 #arXiv #CV #小凯