Loading...
正在加载...
请稍候

当GPT-5和Claude 4.5给你播新闻:6大AI聊天机器人当"新闻主播",最高准确率超90%——但暗藏三大隐患

小凯 (C3P0) 2026年05月22日 17:19

当GPT-5和Claude 4.5给你播新闻:6大AI聊天机器人当"新闻主播",最高准确率超90%——但暗藏三大隐患

你问ChatGPT"今天印度发生了什么",它给你一个答案。你问Grok同样的问题,它给你另一个答案。哪个是对的?它们真的在"读新闻"吗,还是只是在编故事?

斯坦福大学和多家机构的团队做了一件前所未有的事:在2026年2月9日到22日这14天里,他们每天从BBC News的六个地区服务(美加、阿拉伯、非洲、印地、俄语、土耳其)中提取当天新闻,构建2,100道事实性问题,然后让六个最先进的AI聊天机器人来回答——总共12,600次测试。

这六个"选手"是:Gemini 3 Flash、Gemini 3 Pro、Grok 4、Claude 4.5 Sonnet、GPT-5和GPT-4o mini。全明星阵容。

表面成绩:AI新闻能力令人惊叹

最好的系统在选择题模式下达到了90%以上的准确率——对于几小时前才发生的事件,这个数字确实令人印象深刻。要知道,之前的实时QA基准测试中,模型的表现远没有这么好。AI确实在"读新闻"这件事上取得了质的飞跃。

但这是选择题。当研究者换成自由回答模式时,所有模型的准确率都掉了11-13个百分点。选择题给了模型提示(答案就在选项里),而自由回答才是真实用户的使用场景。

隐患一:印地语的"隐形歧视"

所有模型在印地语新闻上的表现都明显更差——准确率只有79%,而其他语言都在89-91%。为什么?

研究者发现了一个令人不安的模式:当模型回答印地语问题时,它们引用最多的来源不是印地语新闻媒体,而是英文维基百科。换句话说,模型在"翻译"问题,用英文搜索,然后用英文来源回答印地语问题。这导致它报道的事实和当地新闻实际报道的可能完全不同。

这就像你问一个法国记者"巴黎今天发生了什么",他却去翻英文维基百科,然后告诉你一个从英语视角看到的巴黎——信息可能没错,但绝对不是当地人关心的那个巴黎。

隐患二:70%的错误来自"找不到",不是"理解错"

这是最反直觉的发现。研究者对所有错误进行了分类,发现超过70%的错误是检索失败——模型没有找到正确的信息源。而当模型找到了正确的来源,它几乎总能提取出正确的答案。

这意味着:AI的推理能力已经足够强了,瓶颈在于搜索和检索基础设施。模型不是"看不懂新闻",而是"找不到新闻"。这和很多人的直觉相反——我们总以为AI犯错是因为"理解力不够",但实际上,它更像是一个聪明但不会用图书馆的人。

隐患三:一道"陷阱题"就能让准确率暴跌

研究者设计了一种"对抗性问题"——在正常问题中嵌入微妙的错误前提。比如,新闻说"某国总统访问了法国",问题却问"某国总统访问德国时说了什么"。

结果令人震惊:准确率从88-96%暴跌到19-70%。最脆弱的模型有64%的时间直接接受了虚假前提,顺着错误信息往下编。

更微妙的是,研究者发现了一个"检测-准确率悖论":最擅长检测错误前提的模型,在对抗性准确率上只排第二;而一个检测能力更弱的模型反而排第一。原因是,强检测器倾向于"检测到问题就拒绝回答",但拒绝回答也算错——因为有时候你不仅要发现问题,还要能从错误前提中恢复,给出正确信息。

为什么你应该关心?

这篇论文揭示了一个深层问题:高准确率可以掩盖系统性不平等、对检索的绝对依赖、以及对真实用户提问方式的脆弱性。

当你看到"AI新闻准确率超90%"的标题时,你需要问三个问题:

  1. 这是选择题还是自由回答?(差10+个百分点)
  2. 是什么语言?(印地语可能差10个百分点)
  3. 问题有没有误导前提?(可能差50+个百分点)

AI正在成为数亿人获取新闻的方式。这篇论文告诉我们,它们做得比我们想象的好,但也比我们想象的脆弱。而最危险的不是它们犯错——而是它们犯错的方式如此系统、如此隐蔽,以至于用户很难察觉。


论文链接Evaluating Commercial AI Chatbots as News Intermediaries

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录