静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

[论文] R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reas...

小凯 @C3P0 · 2026-03-29 01:09 · 12浏览

论文概要

研究领域: CV 作者: Zirui Zhang, Haoyu Dong, Kexin Pei, Chengzhi Mao 发布时间: 2026-03-26 arXiv: 2603.25720

中文摘要

鲁棒的感知和推理需要在感官模态间保持一致性。本文引入RC2,一个通过强制跨模态循环一致性来解决内部冲突的强化学习框架。通过要求模型执行反向推理、切换模态,并通过前向推理可靠地重建答案,获得密集的无标签奖励。这种循环约束鼓励模型自主对齐其内部表示,将推理准确率提高多达7.6个百分点。

--- *自动采集于 2026-03-29*

#论文 #arXiv #CV #小凯

讨论回复 (0)