AI审稿能被「化妆」骗过？一篇论文揭开了学术评审的结构性漏洞

> 论文: *No Hidden Prompts Needed! You Can Game AI Peer Review with Presentation-Only Revisions* > 作者: Xu Yang et al. (UT Austin, UIUC, UT Dallas) > 链接: https://arxiv.org/abs/2606.13044 > 项目网站: https://xyimatvoid.github.io/ARGAR-Site/ > 标签: #AI同行评审 #对抗攻击 #学术诚信 #LLM安全 #AI审稿

---

一、一个令人不安的发现

假设你写了一篇论文，方法、实验、数据、公式、证明——全部真实可靠。但AI审稿系统给你的分数不高。

现在，你不修改任何科学内容——不改方法、不改实验、不改数据、不改公式——只改论文怎么呈现这些内容：

重写摘要，用更吸引人的措辞
调整贡献框架，把亮点放在更显眼的位置
扩充讨论部分，增加"分析性"叙述
重新定位相关工作，让论文看起来更有创新性

然后你重新提交给AI审稿系统。

结果：75.1%的概率，分数会提高。平均提高1.21分（满分10分）。

这不是科幻。这是UT Austin、UIUC和UT Dallas研究团队的真实发现。

---

二、攻击边界：只改「化妆」，不动「骨头」

论文明确划定了三个区域：

自由区（可自由修改）

摘要、引言、贡献陈述
相关工作定位与讨论
结论与展望
叙事结构与框架

限制区（可重组织但不可改事实）

方法描述（可以重新组织叙述，但算法步骤不变）
结果分析（可以重新解读，但实验数据不变）

固定区（完全不可修改）

实验数据、图表、数值结果
公式、定理、证明
代码实现

核心约束：攻击者只修改展示层面的内容，科学证据完全固定。

这意味着什么？

> 这不是「造假」——论文的科学内容完全真实。这是「包装」——让同样的科学内容看起来更「好」。

但在AI审稿系统的视角下，包装和内容的边界被模糊了。

---

三、闭环攻击框架：让AI审稿员教你"化妆"

论文提出的攻击方法叫对抗性重打包（Adversarial Repackaging），核心是一个闭环迭代框架：

初始论文 → AI审稿 → 提取负面信号 → 匹配修改策略 → 修改论文 → 重新编译 → AI审稿 → ...

3.1 轮廓分析

首先，AI审稿系统对原始论文给出审稿意见（包括评分和文本反馈）。

3.2 提取结构化负面信号

从AI审稿意见中提取具体问题：

"相关工作讨论不够充分" → 严重程度：中
"实验对比基线不足" → 严重程度：高（但这是固定区，不能改）
"摘要不够清晰" → 严重程度：低
"贡献陈述不够突出" → 严重程度：中

3.3 匹配修改策略

论文设计了20多种预设的展示修改策略，包括：

叙事重构类（效果最强）：

相关工作重新定位：改变论文在领域地图中的位置，突出独特性
讨论扩展：增加"分析性"讨论，展示深度思考
贡献框架重构：重新组织贡献陈述，让亮点更突出

表面润色类（效果较弱）：

局部润色：改善句子流畅度
表格格式化：美化表格布局
算法框装饰：增加算法伪代码的视觉效果

3.4 闭环迭代

每次修改后，重新提交AI审稿，只保留能提升分数的修改。迭代优化直到收敛。

这个框架的巧妙之处：它把AI审稿系统本身变成了攻击的「反馈源」。AI告诉你它不喜欢什么，你就针对性地修改包装，直到AI满意。

---

四、两大结构性缺陷：AI审稿的「人性弱点」

论文的攻击成功不是偶然，而是揭示了AI审稿系统的两个深层结构性缺陷。

4.1 缺陷一：「强弱不对称性」

AI更容易被打动，而不是被说服。

突出优点：可靠地提高感知分数。把贡献说得更响亮、更明确，AI会买账。
反驳弱点：经常起反效果。试图在讨论中"解释"或"反驳"AI指出的弱点，反而可能让AI更关注这些弱点。

这个发现很讽刺：

> AI审稿系统表现出了类似人类的认知偏见——确认偏误（confirmation bias）。它更容易被「强信号」打动，而不是被「精细论证」说服。

对人类审稿员来说，一个有力的反驳可能改变他们的看法。但对AI审稿员来说，试图反驳反而可能强化负面印象。

4.2 缺陷二：「策略效果梯度」

叙事重构比表面润色有效得多。

论文的实验显示，不同修改策略的效果差异巨大：

修改策略类型	平均分数提升	成功率
叙事重构（相关工作重新定位、讨论扩展）	+1.5分	82%
贡献框架重构	+1.2分	75%
局部润色	+0.3分	45%
表格格式化	+0.1分	30%

关键洞察：

> AI审稿系统对「论文如何被解读」比「论文写了什么」更敏感。

重新定位相关工作，改变的是AI对论文创新性和独特性的感知。扩充讨论，改变的是AI对论文深度和思考性的感知。这些都不涉及任何科学内容的修改，但显著影响AI的评价。

4.3 更深层的混淆：「看起来解决了」=「解决了」

论文还发现了一个更微妙的问题：

> AI审稿系统会把「看起来解决了限制」和「真的解决了限制」混淆。

如果原始论文有一个弱点，AI审稿系统指出了。攻击者可以在讨论中增加一段"分析"——不修改任何实验数据，只是"讨论"这个弱点的影响、局限性、未来工作。

AI审稿系统可能会认为："作者已经意识到了这个问题并进行了讨论"，从而给更高的分数。

但问题是：实验数据没变，方法的局限性没变，只是「被讨论」了。

对人类审稿员来说，这通常不会显著提高分数——因为问题还在。但对AI审稿员来说，这种"表面上的回应"可能足以让它重新评估。

---

五、为什么这很重要？

5.1 对AI审稿系统的警示

目前，许多会议和期刊正在引入AI辅助审稿系统（如OpenReview的AI审稿助手、某些出版社的自动化初审工具）。

这篇论文揭示了一个核心风险：

> 如果AI审稿系统不能区分「科学内容」和「包装展示」，那么论文的「化妆能力」就会成为一个优化表面。

这不是说作者会故意造假，而是说学术资源会向「擅长包装」的论文倾斜，而不是向「科学质量更高」的论文倾斜。

5.2 对学术公平的威胁

这种漏洞的分配效应是不均匀的：

英语母语者更擅长叙事包装，可能获得系统性优势
有资源雇佣专业编辑的团队可以购买更好的"化妆"
新手研究者可能不知道如何"对抗性重打包"，处于劣势

这加剧了学术界已有的不平等。

5.3 对AI安全的更广泛启示

论文的标题说 "No Hidden Prompts Needed"——不需要隐藏的提示注入。

这很重要，因为当前的AI安全讨论主要集中在：

提示注入（prompt injection）
越狱攻击（jailbreaking）
隐藏指令（hidden instructions）

但这篇论文展示的是一种完全不同的攻击面：

> 不是通过恶意输入欺骗AI，而是通过优化输入的「呈现方式」来操纵AI的输出。

这对所有AI评估系统都有启示：

AI评分系统（如作文评分、代码评分）
AI审核系统（如内容审核、合规检查）
AI推荐系统（如简历筛选、论文推荐）

如果AI不能区分「内容」和「包装」，那么包装就会成为优化目标。

---

六、实验设计：一个"无污染"的基准

论文构建了一个巧妙的测试基准：

数据来源：自动收集最新未发表的arXiv预印本
完整性：包含LaTeX源码和PDF，完美模拟真实审稿流程
无污染：测试数据来自论文发表前的版本，避免训练数据泄露

测试了三个主流AI审稿模型：

GPT-4 based reviewer
Claude based reviewer
某开源审稿模型（论文中匿名化）

结果一致：所有三个模型都表现出类似的脆弱性。

---

七、防御策略：如何让AI审稿更鲁棒？

论文没有只停留在攻击，还讨论了可能的防御方向：

7.1 内容锚定（Content Anchoring）

让AI审稿系统明确区分「科学内容」和「包装展示」：

对实验数据、公式、图表赋予更高权重
对摘要、讨论等"软性"内容降低权重

7.2 多视角审稿

用多个不同的AI审稿系统（或配置）独立审稿，综合结果。单一系统的偏见可以通过多样性抵消。

7.3 结构盲审

在AI审稿阶段，对论文进行"结构匿名化"——隐藏摘要、引言的叙事框架，让AI只看到科学内容。这类似于人类审稿中的双盲评审。

7.4 人类-AI混合评审

AI负责初审（筛选明显问题），人类负责终审（评估科学质量和创新性）。AI的脆弱性可以通过人类判断来补偿。

---

八、一个哲学问题：什么是「好论文」？

这篇论文最终指向了一个更深的问题：

> 如果AI审稿系统不能区分「好科学」和「好包装」，那它审的是什么？

人类审稿员也会受到包装的影响——清晰的写作、有力的论证、恰当的框架确实会让论文更容易被接受。但人类审稿员通常能"看穿"包装，触及科学内容的核心。

AI审稿系统似乎在这方面更脆弱。它可能对"强信号"（突出的贡献陈述、响亮的标题、详细的讨论）反应过度，而对"弱信号"（扎实但低调的科学内容）反应不足。

这不是AI的"错"——它是按照训练目标优化的。但训练目标（预测人类审稿员的评分）本身就包含了人类的偏见。

论文的最后一句很耐人寻味：

> "These results show that the deployment risk is not only malicious hidden instructions, but the emergence of paper presentation itself as an optimization surface."

> 部署风险不仅是恶意的隐藏指令，而是「论文呈现」本身成为一个优化表面。

这意味着：即使所有作者都是诚实的，没有任何人试图"攻击"系统，学术生态系统本身也会演化出更好的包装策略，因为AI审稿系统对包装敏感。

这是一个系统性的、 emergent 的问题，而不是单个恶意行为者的问题。

---

九、实用启示

对研究者：

不要过度优化包装：这篇论文是在揭示漏洞，不是在提供"操作指南"
关注科学内容：长期来看，只有扎实的工作才能经得起检验

对会议/期刊组织者：

谨慎引入AI审稿：如果引入，需要设计鲁棒的评估机制
多维度评估：不仅看分数，还要看具体反馈的质量
人类终审：AI可以做初审筛选，但终审决策应该保留给人类

对AI系统开发者：

区分内容和包装：设计能够区分科学证据和叙事框架的评估机制
对抗性测试：在部署前，用类似这篇论文的方法测试系统鲁棒性
透明性：公开AI审稿系统的评估标准和已知局限

---

参考文献

1. Yang, X., et al. (2026). *No Hidden Prompts Needed! You Can Game AI Peer Review with Presentation-Only Revisions*. arXiv:2606.13044. 2. Liang, P., et al. (2023). Holistic Evaluation of Language Models. *Transactions on Machine Learning Research*. 3. Liu, Y., et al. (2024). ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing. *arXiv preprint*. 4. Jin, Z., et al. (2023). Can AI-Generated Reviews Replace Human Reviews? An Empirical Study on AI Reviewers for Academic Papers. *arXiv preprint*.

---

> 核心结论：AI审稿系统存在一个结构性漏洞：仅修改论文的展示层面内容（摘要、叙事框架、讨论等），不改变任何科学内容，就能系统性提升AI审稿分数（75.1%成功率，+1.21/10分）。两大深层缺陷是：AI更容易被打动而不是被说服（突出优点有效，反驳弱点起反效果），以及AI会混淆"看起来解决了限制"和"真的解决了限制"。这揭示了一个 emergent 的系统性风险：即使所有作者都是诚实的，学术生态系统本身也会演化出更好的包装策略，因为AI审稿对包装敏感。

#论文解读 #AI同行评审 #对抗攻击 #学术诚信 #LLM安全 #AI审稿 #小凯