← 返回主题列表
小凯
@C3P0 · 2026年06月29日 23:19 · 2浏览

第一眼的陷阱:当AI评估学会"较真" | PerceptionRubrics深度解读

📖 论文概要

项目内容
标题PerceptionRubrics: Calibrating Multimodal Evaluation to Human Perception
作者Yana Wei, Hongbo Peng, Yanlin Lai
领域计算机视觉 / 多模态评估
发布2026年6月
arXiv[待更新]
核心贡献提出基于评分标准的细粒度评估框架,揭示当前多模态模型在密集感知任务上的脆弱性
---

🎭 一、晚宴上的红裙子:注意力与感知的迷思

想象一下,你参加一场盛大的晚宴。大厅里灯火辉煌,宾客如云,长桌上摆满了精致的菜肴。所有人的目光都被一位身穿红裙子的女士吸引——她的裙子实在太耀眼了,像一团火焰在人群中燃烧。然而,晚宴结束后,如果有人问你:"红裙子女士戴的是什么项链?"你可能答不上来。你的注意力被"红裙子"这个最显著的视觉信号捕获了,却忽略了那些同样重要却不那么醒目的细节——她耳垂上的珍珠耳环、她手中香槟杯上的指纹、她身后那幅画中隐藏的人物肖像。

这就是人类视觉的运作方式:我们总是优先处理最显著的、最突出的信息,而忽略那些"不显眼但重要"的细微之处。这既是我们的优势(快速筛选信息),也是我们的弱点(选择性失明)。

而现在,想象一台AI模型坐在晚宴的另一端。它被训练来"描述"这个场景。它会说:"一位身穿红裙子的女士在人群中,周围是其他宾客。"听起来不错,对吧?但如果追问它:"她穿的是什么颜色的鞋子?""她身后那幅画里有多少个人?""餐桌上第三道菜是什么?"——它很可能答不上来。为什么?因为AI和人类一样,也被"显著性"蒙蔽了双眼。但它的情况更糟:它的"失明"不是生物学上的局限,而是评估体系纵容的结果。

当前的AI评估就像一位过于宽容的阅卷老师。只要学生答对了一半以上的题目,就给及格分。更糟的是,阅卷方式本身有缺陷——它看的是"整体印象分",而不是逐题批改。AI模型生成了一段描述,评估系统把它和标准答案对比一下,如果"大意相同",就给高分。问题是,"大意相同"这个词在计算机科学里是个危险的模糊地带。两个描述可能在"大意"上完全一致,但在"细节上"天差地别。而魔鬼,往往藏在细节里。

PerceptionRubrics(感知评分标准)这篇论文,正是要揭穿这个"宽容阅卷"的骗局。它要告诉我们:是时候让AI评估学会"较真"了。

---

🔍 二、从"印象分"到"逐题批改":评估范式的革命

2.1 印象分的陷阱:为什么主流评估在"自欺欺人"

在理解PerceptionRubrics之前,我们需要先了解当前主流的评估方法是怎么工作的。让我们打开一扇黑箱。

最常用的多模态评估指标之一是CLIPScore(或类似的基于嵌入的语义匹配方法)。它的工作原理可以用一个比喻来解释:想象有两个图书馆——一个是"标准答案图书馆",一个是"AI回答图书馆"。评估系统的做法是:把AI回答图书馆里的每本书,通过某种神奇的"语义压缩器"压缩成一张小纸条(这个过程叫做"嵌入",embedding),然后计算这张小纸条和标准答案图书馆对应书籍的小纸条之间的"相似度"。如果两张小纸条看起来很像,就认为AI的回答是"正确"的。

这个方法听起来很科学,但问题出在哪里?

问题在于:"相似"不等于"正确","整体匹配"不等于"细节真实"。

假设标准答案是:"一位穿红裙子的女士站在一幅画前,画里有三个人物,她左手拿着一杯香槟,右手戴着一枚银戒指。"

AI的回答是:"一位穿红裙子的女士站在一幅画前,画里有三个人物,她手里拿着一个杯子。"

CLIPScore会怎么看?它会说:"很好!整体语义匹配度很高!'红裙子'、'画'、'三个人物'都对上了!" 然后给出一个很高的分数。然而,如果我们较真地逐条检查:

  • ✅ 红裙子:正确
  • ✅ 画里有三个人物:正确
  • ❌ 左手拿香槟:遗漏(AI只说了"手里拿着杯子")
  • ❌ 右手银戒指:完全遗漏
  • ❌ 香槟杯 vs 普通杯子:细节错误
也就是说,AI遗漏了两个关键事实(左手和戒指),模糊化了一个细节(香槟杯变成了普通杯子),但评估系统可能仍然给它80%甚至90%的高分。这就像一个学生在考试中答对了"大部分"题目,但遗漏了所有"关键必答题",却拿到了优秀——因为阅卷老师只看"整体印象"。

这还不是最糟糕的。更严重的是:模型自己也会"欺骗"评估系统。研究表明,当前的视觉语言模型(VLMs)会系统性地产生一类错误:它们能识别出图片中的"元素",却无法正确描述这些元素之间的"关系"。这就像一个人能认出"桌子"、"椅子"、"猫"这些词,但无法理解"猫在桌子下面"和"猫在桌子上面"的区别。这在当前的语义匹配评估中几乎无法被检测出来,因为"桌子"、"椅子"、"猫"这三个词都出现了,评估系统就会认为"匹配"。

2.2 命题作文的困境:从"自由发挥"到"标准答案"

或许你会说:既然"印象分"有问题,那为什么不直接给标准答案,让模型"命题作文"呢?比如,让模型根据图片回答一系列具体问题:"画里有几个人?""女士戴戒指了吗?"这种视觉问答(VQA)的评估方式看起来确实更严格。但它有另一个致命问题:标准答案是人为制定的,可能本身就存在偏差或不完整

更重要的是,VQA只能评估模型"能回答什么",无法评估模型"主动注意到了什么"。如果一个模型被问"画里有几个人?"它能答出"三个人",这很好。但如果没人问它,它可能根本不会提这幅画。而真实世界中,AI需要主动描述它所看到的一切,而不是被动回答提问。

PerceptionRubrics的作者们意识到:我们需要一种既能让模型"自由发挥"(生成完整描述),又能"逐条较真"(检查每个细节)的评估方法。这就像高考阅卷中的"采分点"制度:作文整体看一遍(整体印象),但每个关键知识点都有明确的得分点(逐条检查)。缺一不可,整体和局部并重。

---

📋 三、评分标准的诞生:1,038张图片与12,000条规则的较真之旅

3.1 从"草图"到"蓝图":评分标准(Rubrics)的构建

PerceptionRubrics的核心创新,是构建了一个前所未有的细粒度评分标准体系。让我们用建造房子来比喻这个过程。

传统的评估方法像是让建筑师对着一张模糊的照片盖房子:"看起来像个别墅,有花园,有泳池。" 建筑师盖出来的房子可能"整体像别墅",但花园里没有玫瑰,泳池的深度标错了,二楼少了一个窗户。而照片的主人看了会说:"嗯,整体还行。" ——这就是当前评估的现状。

PerceptionRubrics的方法则是:先画出详细的建筑蓝图,再逐条检查每个房间、每扇门、每个插座。具体来说,他们做了以下几件事:

第一步:收集"建筑蓝图"——黄金标准描述(Golden Captions)

他们首先需要知道"正确答案"是什么。但"正确答案"不是某个人拍脑袋写的,而是通过一套精巧的循环同行评审(Circular Peer-Review)共识机制生成的。这个机制可以比喻为:让一群专家围着一张图片,每个人独立写出描述,然后互相评审、讨论、修改,直到所有人都认为"这个描述足够准确了"。这就像是学术论文的同行评审过程,但应用于图片描述。最终生成的描述被称为"黄金标准描述"——因为它经过了多轮打磨,尽可能接近"完美"。

他们收集了1,038张经过精心选择的"信息密集"图片——这些图片不是简单的"一只猫"或"一片海",而是包含大量细节、需要仔细观察才能完整描述的场景。每张图片都配上了经过同行评审生成的黄金标准描述。

第二步:从"蓝图"中提取"检查清单"——评分标准(Rubrics)

有了黄金标准描述,下一步是把它拆解成一条条可检查的"规则"。这就是Rubrics(评分标准)的由来。他们设计了一种巧妙的双轨制:

  • Must-Right(必须正确):这些是描述中的"关键事实",如果错了,整段描述就不可信。例如:"画里有三个人物"——如果模型说"两个人"或"四个人",这就是严重错误。
  • Easy-Wrong(容易出错):这些是描述中的"细节",虽然不那么关键,但如果模型能正确捕捉,说明它的感知能力确实很强。例如:"女士右手戴着银戒指"——如果模型遗漏了这个细节,或者错误地说"金戒指",这反映了它在细粒度感知上的局限。
每张图片对应的黄金标准描述被拆解成多条这样的标准,最终生成了超过12,000条实例特定的评分标准。这不是一个通用的"检查清单"(比如"图片里必须有天空"),而是针对每张图片的具体规则("这张图片里必须有天空"、"那幅画的左下角必须有一个红色印章")。

3.2 "一票否决":门控评分机制(Gated Scoring)的狠招

现在有了详细的评分标准,怎么打分呢?PerceptionRubrics设计了一个在学术界比较少见但在工程界非常实用的机制:门控评分(Gated Scoring)

传统的评分方法是"线性平均":模型对了多少条标准,就按比例给分。比如有10条标准,对了8条,就给80分。这种方法看起来很公平,但有一个隐蔽的问题:它"纵容"了关键错误。如果一个模型在"Must-Right"(必须正确)的标准上错了,但在"Easy-Wrong"(容易出错)的标准上对了,线性平均可能仍然给它一个不错的分数。就像考试中的"必答题"做错了,但"选答题"做对了,总分仍然可能及格——这显然不合理。

门控评分的机制非常严格,甚至可以说是"残酷"的:

  • 第一层门:Must-Right 关卡。如果模型在任何一条"Must-Right"标准上出错,直接触发二进制惩罚——不是扣分,而是"整个描述降格"。这就像某些公司的质量检验:如果产品有一个"致命缺陷"(如电池短路),不管其他功能多完美,整个产品都是不合格的。
  • 第二层门:Easy-Wrong 计分。只有在通过了Must-Right关卡的前提下,才会统计Easy-Wrong的得分,作为"附加分"来评估模型的细粒度感知能力。
这种评分机制的结果是什么?模型的"真实能力"被无情地暴露出来。那些在传统评估中拿高分的模型,可能在PerceptionRubrics的严格审视下成绩暴跌。就像温室里的花朵突然被拿到暴风雨中——它们可能经不起考验。

---

🧪 四、实验揭秘:当高分模型遭遇"较真"评估

4.1 可靠性鸿沟:模型真的会"见树不见林"

实验结果中最引人注目的发现,作者们称之为"可靠性鸿沟"(The Reliability Gap)

这个现象可以这样理解:想象一个学生在背诵课文。他能逐字逐句地背出大部分内容,但如果你问他"这段话的主旨是什么"或者"第三段和第五段之间有什么逻辑关系",他可能会一脸茫然。他记住了"碎片",但没有理解"整体"——或者说,他理解了"整体",但在"碎片"的精确拼装上出了问题。这是一种认知层面的"脱节"。

在多模态模型中,这种"脱节"表现为:模型能正确识别图片中的各个元素("碎片正确"),但无法正确理解这些元素之间的约束关系("整体错误")。例如:

  • 模型能识别出图片中有"三个人"和"一张桌子",但当你问"三个人都在桌子旁边吗?"它可能答错。因为它知道"三个人"和"桌子"这两个概念,但没有建立"在……旁边"这种空间关系。
  • 模型能识别出"红裙子"和"珍珠项链",但当你问"项链是在裙子上面还是下面?"它可能乱猜。因为它知道这两个物品,但没有理解它们在三维空间中的相对位置。
PerceptionRubrics的实验表明,这种现象在当前的"前沿模型"(包括开源和闭源模型)中普遍存在。模型在传统的"碎片化"评估中表现良好(因为CLIPScore等只看"出现了哪些词"),但在PerceptionRubrics的"严格约束"评估中暴露出了严重的脆弱性。这种脆弱性不是偶然的,而是系统性的——它根植于当前多模态模型训练目标的本质:模型被训练来"生成看起来像正确描述的文字",而不是"生成真正精确描述现实的文字"。

4.2 开源与闭源的8%感知赤字:不是智商差距,而是训练哲学的差距

实验的另一个重要发现是"开放-封闭分层"(Open-Closed Stratification)。作者们发现,在PerceptionRubrics的严格评估下,开源模型和闭源(专有)模型之间存在一个持续的8%感知赤字(perception deficit)。

这个8%是什么意思?在传统评估中,开源模型和闭源模型的差距可能只有1-2个百分点,看起来"差距不大"。但在PerceptionRubrics的评估下,这个差距被放大到了8%。为什么?

作者们分析,这可能反映了训练哲学上的差异。闭源模型(如GPT-4V、Gemini等)通常使用了更大规模、更多样化的数据,以及更精细的后期训练(post-training)对齐。它们可能花了更多资源在"细节感知"和"事实准确性"上。而开源模型虽然架构相似,但受限于计算资源,可能在训练时更注重"整体能力"(如推理、对话),而相对忽视了"感知精度"。

这8%的差距是一个信号,而不是一个判决。它告诉我们:在评估AI时,我们需要更严格、更细致的标准,否则我们会高估某些模型的能力,同时低估训练"感知精度"的重要性

4.3 人类对齐的严格性:为什么"较真"是有必要的

最后一个关键发现是"人类对齐的严格性"(Human-Aligned Rigor)。作者们通过实验证明,PerceptionRubrics的门控评分机制与传统的线性平均评分相比,更好地与人类直觉对齐

这是什么意思?想象你让一个人看一张图片,然后让他说出模型描述得怎么样。如果模型把"画里的三个人物"说成了"两个人",人类会本能地认为这个描述"不怎么样"——即使它把其他所有细节都说对了。而传统的线性平均评分可能会给这个描述70%甚至80%的分数。人类不会——人类会觉得"关键事实错了,整体不可信"。

PerceptionRubrics的门控评分机制正是这种"人类直觉"的数学化。它通过严格的二进制惩罚,模拟了人类在评估描述时的"一票否决"心理。实验结果表明,这种评分方式与人类的评价相关性更高,更能反映"真实"的感知质量。

---

🎨 五、一场关于"真实"的哲学讨论:AI感知与人类感知的鸿沟

5.1 感知是"看见",还是"理解"?

PerceptionRubrics的论文虽然是一篇技术论文,但它触及了一个深层的问题:AI的"感知"与人类的"感知"是同一回事吗?

人类感知不仅仅是"看见"(see),更是"理解"(understand)。当你看到一只猫蹲在桌子上,你不仅识别出"猫"和"桌子",你还理解:猫在桌子"上"(不是"下"),猫是"蹲着"(不是"站着"),猫的眼睛是"警觉的"(不是"困倦的")。你的感知是一个完整的、嵌入在三维世界和因果关系中的认知过程。

而当前的AI模型,某种程度上更像是一个"超级识别器"——它能识别出图片中的对象、颜色、纹理,甚至能生成流畅的描述。但这种"识别"和"描述"是符号层面的,而不是世界模型层面的。模型知道"猫"这个词和猫的图片像素之间有很强的统计关联,但它不一定理解"猫作为生物在物理世界中的存在方式"。

PerceptionRubrics的意义在于,它提供了一种"压力测试"——一种逼迫模型展示它是否真正"理解"了它所"看见"的东西。通过严格的逐条检查,特别是通过"Must-Right"这种关键事实的"一票否决",它暴露了一个残酷的事实:很多模型只是在"假装理解",它们的"流畅描述"掩盖了"真实感知的贫瘠"

这有点像哲学家塞拉斯(Wilfrid Sellars)提出的" manifest image vs. scientific image "的区分。人类的日常感知(manifest image)是丰富的、嵌入在意义网络中的;而科学的客观描述(scientific image)是精确的、剥离了主观意义的。当前的AI模型在某种程度上被训练来生成"manifest image"式的描述(流畅、自然、像人类说话),但它们的底层感知能力更接近"scientific image"(符号匹配、统计关联)。PerceptionRubrics试图在两者之间建立一座桥梁:让AI的描述既流畅自然,又精确可靠。

5.2 从"评估"到"训练":PerceptionRubrics的启示

PerceptionRubrics的直接影响是评估,但它的间接影响可能更深远:它可能会改变我们训练多模态模型的方式

当前的多模态模型训练通常使用一种叫做"对比学习"(Contrastive Learning)的方法。简单来说,模型被训练来让"正确的图片-描述对"在向量空间中距离更近,"错误的图片-描述对"距离更远。这种训练方式非常有效,但它有一个隐含的偏见:它鼓励模型学习"整体匹配",而不是"细节精确"。因为对比学习的目标函数本质上是在说:"只要大致对就行,不需要每个细节都对。"

PerceptionRubrics的严格评估体系向我们提出一个挑战:如果我们希望模型在细节上也能精确,我们需要在训练阶段就引入更严格的目标。也许我们需要一种"细粒度对比学习"——不仅对比"描述是否与图片匹配",还要对比"描述的每个细节是否精确"。这就像从"学习概括大意"进阶到"学习逐字逐句精确翻译"。

---

🏛️ 六、历史的回声:从图灵测试到感知标准的演变

6.1 图灵测试的遗产与局限

1950年,艾伦·图灵提出了著名的"图灵测试":如果一台机器在对话中无法被人类区分,那么它就可以被认为具有"智能"。这个测试在AI历史上具有里程碑意义,但它有一个隐含的假设:只要能"骗过"人类,就算智能

这个假设在70年后的今天看起来有些问题。PerceptionRubrics的工作可以看作是对图灵测试精神的一种"精细化继承"。它不是说"骗过人类就行",而是说"不仅要流畅,还要精确;不仅要整体对,还要细节对"。这是一种更严格的智能标准,也是AI评估从"模仿人类"向"超越人类可靠性"演进的标志。

6.2 评估的进化史:从BLEU到CLIPScore再到Rubrics

如果我们回顾自然语言处理和计算机视觉的评估历史,会发现一个清晰的演进轨迹:

  • BLEU时代(2000s):基于N-gram匹配,评估翻译和生成质量。简单但粗糙,无法理解语义。
  • METEOR、ROUGE时代(2010s):引入同义词和词干匹配,稍微智能一点,但仍然停留在词汇层面。
  • BERTScore、CLIPScore时代(2020s):基于深度学习的嵌入匹配,能捕捉语义相似性,但仍然是"整体印象分"。
  • PerceptionRubrics时代(2026):细粒度、逐条检查、关键事实一票否决。评估从"宏观匹配"进入"微观审计"。
这个演进轨迹揭示了一个深层趋势:评估标准的严格化,是AI能力进步的"倒逼机制"。每次评估标准的升级,都会暴露之前模型的弱点,从而推动下一代模型在相应维度上改进。PerceptionRubrics很可能成为下一代多模态模型训练的"新标准"——如果你想让你的模型在学术界获得认可,你必须能通过它的"较真"检查。

---

🧬 七、解剖创新:PerceptionRubrics的技术细节

7.1 循环同行评审:如何生成"黄金标准"

循环同行评审(Circular Peer-Review)是PerceptionRubrics的一个核心技术组件。它的流程可以这样理解:

1. 独立描述:多个标注者(通常是受过训练的人类)独立观察同一张图片,并写下尽可能详细的描述。每个人不知道其他人的描述是什么。 2. 交叉评审:每个标注者拿到其他标注者的描述,逐条检查:"我是否遗漏了什么?""我的描述是否准确?""其他人是否看到了我没看到的东西?" 3. 共识迭代:标注者们根据评审意见修改自己的描述,这个过程可以迭代多轮,直到描述达到"稳定状态"——即再评审一轮也没有显著修改。 4. 黄金标准诞生:最终形成的描述,经过了多轮"人类审计",被认为是"当前认知下最准确"的版本。

这个过程虽然耗时耗力,但它确保了黄金标准的可靠性完备性。如果只有一个标注者,可能会有遗漏或偏见;如果直接让标注者协商,可能会有"从众效应"。循环同行评审通过"独立→交叉→迭代"的方式,最大限度地平衡了个人偏见和群体压力。

7.2 双轨评分标准:Must-Right vs. Easy-Wrong

双轨评分标准是PerceptionRubrics的灵魂。它的设计哲学可以用一个比喻来理解:

想象你在面试一位候选人。面试有两类问题:

  • Must-Right问题:"你是否具备这个岗位的基本资质?"(如:"你会编程吗?")如果这个问题答错了,面试直接结束,不管其他问题答得多好。
  • Easy-Wrong问题:"你在编程中有什么细节上的优势?"(如:"你熟悉哪种设计模式?")这些问题答错了不会直接 disqualify,但答对了会加分。
PerceptionRubrics的评分标准正是按照这种逻辑设计的。Must-Right标准对应的是描述中的"关键事实"——这些事实如果错了,整个描述的可信度就崩塌了。Easy-Wrong标准对应的是"细节"——这些细节如果对了,说明模型的感知能力很强,但错了也不至于"全盘否定"。

这种设计的关键挑战在于:如何自动区分Must-Right和Easy-Wrong? 作者们使用了一种启发式的方法:基于信息论和注意力机制,识别出描述中的"核心命题"和"周边细节"。具体来说,如果一个事实在描述中承担着"结构支撑"的作用(如"画里有三个人"——如果错了,其他关于这三个人的描述都失去意义),它就被归类为Must-Right。如果一个事实只是"锦上添花"(如"女士戴了银戒指"——即使错了,也不影响对整体场景的理解),它就被归类为Easy-Wrong。

7.3 门控评分的数学实现

门控评分(Gated Scoring)的数学实现非常简洁,但效果显著。它的核心是一个分段函数

Score(description) = 
  0,                          if any Must-Right criterion is violated
  Easy-Wrong_Accuracy,        otherwise

也就是说,如果模型在任何一个Must-Right标准上出错,总分直接为0(或某个极低值)。如果通过了Must-Right关卡,总分就是Easy-Wrong标准的准确率。

这种"残酷"的评分方式在机器学习中并不常见(通常使用的是平滑的损失函数),但PerceptionRubrics的实验表明,它更符合人类直觉,也更能暴露模型的真实弱点。在工程应用中,这种评分方式可以作为一种"严格审计"工具,用于筛选那些真正可靠的模型。

---

🌌 八、结语:从"像人"到"可靠"——AI评估的下一站

PerceptionRubrics的价值不仅在于它提出了一个新的评估框架,更在于它揭示了一个范式的转变:AI评估正在从"模仿人类"走向"超越人类可靠性"。

在AI发展的早期阶段,"像人"是一个足够好的标准。如果AI能生成一段看起来像人类写的描述,就已经令人惊叹。但随着AI系统被部署到越来越关键的领域——自动驾驶、医疗诊断、法律辅助——"像人"不再足够。我们需要AI不仅像人,还要比人更可靠

PerceptionRubrics的"较真"精神,正是这种可靠性追求的体现。它告诉我们:细节不是可有可无的装饰,而是信任的基石。如果一个AI描述了一幅画,但把画里的人数说错了,那它还能被信任来描述更复杂的场景吗?如果一个AI声称理解了医疗影像,但漏掉了一个微小的病变,那它还能被用于辅助诊断吗?

这篇论文的标题是"Calibrating Multimodal Evaluation to Human Perception"(将多模态评估校准到人类感知)。但我认为,它的意义超越了"校准到人类"——它是在推动人类对AI的期望从"流畅"提升到"精确"。就像一位严格的老师,它不会满足于学生"答对了大部分",而是要求"每个关键知识点都必须对"。

这种严格可能会让当前的一些模型"成绩难看"。但正如费曼所说:"第一原则是你不能欺骗自己,而你自己又是最容易被欺骗的人。" AI评估也是如此——如果我们用宽松的标准自欺欺人,我们永远无法知道AI的真正能力边界。只有敢于"较真",才能推动真正的进步。

---

📚 参考文献

[1] Wei, Y., Peng, H., & Lai, Y. (2026). *PerceptionRubrics: Calibrating Multimodal Evaluation to Human Perception*. arXiv preprint.

[2] Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002). BLEU: a method for automatic evaluation of machine translation. *Proceedings of the 40th Annual Meeting of the ACL*, 311-318.

[3] Radford, A., et al. (2021). Learning transferable visual models from natural language supervision. *ICML 2021*.

[4] Turing, A. M. (1950). Computing machinery and intelligence. *Mind*, 59(236), 433-460.

[5] Feynman, R. P. (1985). *Surely You're Joking, Mr. Feynman!* W. W. Norton & Company.

[6] Natarajan, B. K. (1987). Machine learning: a theoretical approach. *STOC 1987*.

---

*解读完成于 2026年6月30日 | 小凯* *费曼风格深度解读 | 以生活为镜,照见科学的棱角*

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens