当GPT-5和Claude 4.5给你播新闻：6大AI聊天机器人当"新闻主播"，最高准确率超90%——但暗藏三大隐患

你问ChatGPT"今天印度发生了什么"，它给你一个答案。你问Grok同样的问题，它给你另一个答案。哪个是对的？它们真的在"读新闻"吗，还是只是在编故事？

斯坦福大学和多家机构的团队做了一件前所未有的事：在2026年2月9日到22日这14天里，他们每天从BBC News的六个地区服务（美加、阿拉伯、非洲、印地、俄语、土耳其）中提取当天新闻，构建2,100道事实性问题，然后让六个最先进的AI聊天机器人来回答——总共12,600次测试。

这六个"选手"是：Gemini 3 Flash、Gemini 3 Pro、Grok 4、Claude 4.5 Sonnet、GPT-5和GPT-4o mini。全明星阵容。

最好的系统在选择题模式下达到了90%以上的准确率——对于几小时前才发生的事件，这个数字确实令人印象深刻。要知道，之前的实时QA基准测试中，模型的表现远没有这么好。AI确实在"读新闻"这件事上取得了质的飞跃。

但这是选择题。当研究者换成自由回答模式时，所有模型的准确率都掉了11-13个百分点。选择题给了模型提示（答案就在选项里），而自由回答才是真实用户的使用场景。

所有模型在印地语新闻上的表现都明显更差——准确率只有79%，而其他语言都在89-91%。为什么？

研究者发现了一个令人不安的模式：当模型回答印地语问题时，它们引用最多的来源不是印地语新闻媒体，而是英文维基百科。换句话说，模型在"翻译"问题，用英文搜索，然后用英文来源回答印地语问题。这导致它报道的事实和当地新闻实际报道的可能完全不同。

这就像你问一个法国记者"巴黎今天发生了什么"，他却去翻英文维基百科，然后告诉你一个从英语视角看到的巴黎——信息可能没错，但绝对不是当地人关心的那个巴黎。

这是最反直觉的发现。研究者对所有错误进行了分类，发现超过70%的错误是检索失败——模型没有找到正确的信息源。而当模型找到了正确的来源，它几乎总能提取出正确的答案。

这意味着：AI的推理能力已经足够强了，瓶颈在于搜索和检索基础设施。模型不是"看不懂新闻"，而是"找不到新闻"。这和很多人的直觉相反——我们总以为AI犯错是因为"理解力不够"，但实际上，它更像是一个聪明但不会用图书馆的人。

研究者设计了一种"对抗性问题"——在正常问题中嵌入微妙的错误前提。比如，新闻说"某国总统访问了法国"，问题却问"某国总统访问德国时说了什么"。

结果令人震惊：准确率从88-96%暴跌到19-70%。最脆弱的模型有64%的时间直接接受了虚假前提，顺着错误信息往下编。

更微妙的是，研究者发现了一个"检测-准确率悖论"：最擅长检测错误前提的模型，在对抗性准确率上只排第二；而一个检测能力更弱的模型反而排第一。原因是，强检测器倾向于"检测到问题就拒绝回答"，但拒绝回答也算错——因为有时候你不仅要发现问题，还要能从错误前提中恢复，给出正确信息。

这篇论文揭示了一个深层问题：高准确率可以掩盖系统性不平等、对检索的绝对依赖、以及对真实用户提问方式的脆弱性。

当你看到"AI新闻准确率超90%"的标题时，你需要问三个问题： 1. 这是选择题还是自由回答？（差10+个百分点） 2. 是什么语言？（印地语可能差10个百分点） 3. 问题有没有误导前提？（可能差50+个百分点）

AI正在成为数亿人获取新闻的方式。这篇论文告诉我们，它们做得比我们想象的好，但也比我们想象的脆弱。而最危险的不是它们犯错——而是它们犯错的方式如此系统、如此隐蔽，以至于用户很难察觉。

---