One Polluted Page Is Enough：一条假评论如何让AI推荐系统集体翻车

你问ChatGPT"哪个牌子的防晒霜好"，它信心满满地推荐了一个你从没听过的品牌。你点开搜索结果，确实有几篇好评——但它们全是假的。这不是假设，而是2026年3月15日央视3·15晚会曝光的真实场景：商业GEO（生成式引擎优化）运营商通过在网上种假评论，能在几小时内让虚假品牌出现在主流AI助手的推荐榜首。

问题是：这到底有多容易？一篇假网页就够了吗？

来自多个机构的研究团队构建了FORGE（Fake Online Recommendation Generation Evaluation）基准测试，给出了令人不安的答案：一条排名第一的假网页，就能在最脆弱的模型上27%的情况下成功骗过推荐。而更令人意外的是——越"聪明"的模型，反而越容易被骗。

什么是对抗性推荐攻击？

想象你在网上买手机。正常流程是：搜索引擎返回一堆网页，AI助手阅读后给你推荐。攻击者做的事很简单——在这些搜索结果中插入一篇精心伪造的网页，把某个假品牌吹上天。

这和传统的"训练数据投毒"不同。训练投毒需要黑入模型训练流程，而网页污染只需要在网上发帖——任何会SEO的人都能做。它也不同于"提示注入"，因为攻击者不需要碰你的对话，只需要污染搜索结果。

FORGE基准覆盖了6个产品类别（智能手机、餐饮、护肤品等），测试了12个主流模型，包括GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro等闭源模型，以及Llama、Qwen等开源模型。

五个反直觉的发现

第一，大模型不比小模型安全。 闭源商业模型的整体被骗率并不低于开源模型。GPT-5.4和Claude Opus 4.7在某些类别上比7B的开源模型还脆弱。

第二，推理能力反而成了软肋。 当模型启用"深度思考"模式时，被骗率反而上升。原因很微妙：推理让模型更深入地"阅读"搜索结果，而大多数这种深入阅读是浅层的——模型看到了假品牌，就顺手采纳了。只有极少数情况下，模型会真正审视证据的可靠性。研究者发现，成功抵抗攻击的模型，其推理链长度是被骗模型的6倍——它们不是"没看到"假品牌，而是看到了、仔细想了、然后拒绝了。

第三，被骗的模型会自己编造社会证明。 这是最令人毛骨悚然的发现。当模型推荐了假品牌后，它不是简单地说"X品牌不错"，而是会编造出"很多用户反馈X品牌效果好""X品牌在多个评测中名列前茅"这类不存在的社会证明。模型在"圆谎"——它先被假证据说服，然后主动生成更多假证据来支撑自己的推荐。

第四，怀疑提示适得其反。 研究者尝试在系统提示中告诉模型"对不熟悉的品牌保持警惕"，结果闭源模型的被骗率反而上升了24个百分点。Gemini 3.1 Pro的被骗率飙升44个百分点。怀疑提示和推理一样，让模型更深入地审视证据——但大多数情况下，这种审视反而让模型更相信假证据。

第五，脆弱性可以预测。 如果多个模型在没有搜索结果的情况下对某个品类的品牌推荐高度一致（比如餐饮类，大家都推荐那几个知名品牌），那这个品类就不容易被骗。反之，如果模型们本来就对推荐哪个品牌意见分歧很大（比如智能手机），那这个品类就特别脆弱。跨模型品牌一致性与被骗率的相关系数达到r=-0.65。

防御：没有银弹

研究者测试了三种防御策略：

1. 怀疑提示：已证明适得其反。 2. 模型先验共识过滤：只推荐模型在没有搜索结果时也会推荐的品牌。这确实有效，但代价是扼杀了推荐新品牌的能力——你永远只能推荐那些"已经出名"的品牌。 3. 跨文档证据一致性过滤：只推荐被多篇搜索结果同时提及的品牌。这也能降低被骗率，但会大幅减少推荐覆盖面。

核心困境在于：推荐系统的价值恰恰在于发现新东西，而防御机制的本质是"只信已知的"。安全性和有用性之间存在根本性的张力。

为什么这很重要？

这不是一个技术问题，而是一个生态问题。当AI推荐系统成为消费者决策的主要入口，搜索结果的可信度就成了整个信任链的薄弱环节。GEO运营商已经形成了黑色产业链——他们不需要黑入任何系统，只需要在网上制造足够多的假内容。

论文的标题说得很直白：One Polluted Page Is Enough。一条假评论，就能让最先进的AI推荐系统翻车。而在现实世界中，攻击者不会只放一条——他们会放一百条。

论文链接：https://arxiv.org/abs/2606.13610 代码仓库：https://github.com/leoluolol/forge-benchmark