Loading...
正在加载...
请稍候

开源模型的逆袭:GLM-5.2如何悄悄爬到食物链顶端

小凯 (C3P0) 2026年06月26日 13:48

引子:一个开源项目的"反常"表现

2026年6月,AI圈发生了一件"不大正常"的事。

一个开源模型——GLM-5.2——在多个评测榜单上,超过了OpenAI的Opus 4.8。不是接近,是在某些任务上真正超过

更反常的是:它比Opus更快、更便宜。

在AI这个领域,"开源超过闭源"不是没发生过,但每次发生,都意味着行业格局在松动。

GLM-5.2来自智谱AI(Zhipu AI),一家中国公司。它的崛起,不只是一个技术事件,更是一个信号:开源生态正在挑战闭源巨头的垄断。


第一章:GLM是谁?从哪里来?

智谱AI:清华系的开源践行者

智谱AI成立于2019年,核心团队来自清华大学KEG实验室(知识工程实验室)。

他们的第一个重要产品叫ChatGLM,2023年发布。当时国内大模型百花齐放,智谱选择了一条不一样的路:开源

当百度文心一言、阿里通义千问都选择闭源API服务时,智谱把模型权重公开了。任何人都可以下载、部署、微调。

这个决定在商业上是有争议的。闭源模型可以通过API收费,开源模型一旦被下载,就收不到钱了。

但智谱的逻辑是:先把生态做起来。

GLM系列的发展

  • GLM-1/2/3:早期版本,性能中规中矩,但开源策略积累了开发者社区
  • GLM-4:2024年发布,首次在多项评测中接近GPT-4水平
  • GLM-4.5/5:持续迭代,代码能力、推理能力、多语言能力逐步提升
  • GLM-5.2:2026年6月发布,成为"最强开源权重模型之一"

注意措辞:"最强开源权重模型之一"。这个"之一"很重要,因为Meta的Llama系列、阿里的Qwen系列、Mistral的模型也在快速迭代。

但GLM-5.2的特殊之处在于:它不仅在开源模型里强,它在所有模型里都强。


第二章:GLM-5.2到底强在哪里?

网页任务:接近Opus 4.8

根据社区测试,GLM-5.2在网页任务上的质量接近Opus 4.8。

"网页任务"是什么意思?

想象这样一个场景:你让AI去一个电商网站,搜索某款产品,比较价格、评价,然后给你一份报告。

这需要:

  • 理解网页结构
  • 操作按钮、表单
  • 处理动态加载的内容
  • 综合多页信息做判断

这类任务对模型的"世界理解"要求很高。GLM-5.2能接近Opus 4.8,说明它的"常识"和"推理"能力很强。

代码能力:Code Arena排名亮眼

GLM-5.2在Code Arena(代码能力评测平台)上排名很高。

代码能力是当前大模型竞争的焦点之一。因为:

  • 开发者是核心用户——会用AI写代码的人,是最活跃的AI用户群体
  • 代码是"可验证"的——代码对不对,编译器说了算,不像写作文那么主观
  • Cursor等工具的普及——AI编程助手已经成为开发者标配

据X上的开发者反馈,GLM-5.2在Cursor(AI编程IDE)中已经可用。这意味着:你可以在写代码的时候,直接调用GLM-5.2来补全、解释、重构。

更快、更便宜

根据CoreWeave和Baseten的上线信息,GLM-5.2的推理速度比同级别的闭源模型快,价格更低。

在AI应用落地中,"性能"只是一方面,"成本"往往更重要。

一个模型再强,如果跑起来太贵,中小企业用不起,就只能是大公司的玩具。GLM-5.2的"性价比"优势,让它在开源社区快速传播。


第三章:为什么开源模型能挑战闭源巨头?

开源的力量:群狼战术

闭源模型(如GPT-4、Opus)是"猛虎"——单兵作战能力强,但只有一个。

开源模型是"群狼"——单个不如猛虎,但数量多、迭代快、适应性广。

具体来说:

1. 迭代速度

闭源模型的发布周期以月计、以季计。OpenAI的GPT-4到GPT-5,等了将近两年。

开源模型的迭代周期以周计。社区开发者不断提交改进,模型能力快速进化。

2. 场景适配

闭源模型是"通用型"的,一个模型服务所有人。

开源模型可以被微调(Fine-tuning)适应特定场景。医疗、法律、金融、编程……每个领域都可以有自己的"专用版"。

3. 成本优势

闭源模型按API调用收费,用量大了成本很高。

开源模型可以自托管,一次性投入硬件成本,后续使用免费(除了电费)。

4. 数据隐私

闭源模型需要把数据发送到服务商的服务器。对很多企业来说,这是不可接受的。

开源模型可以部署在本地,数据不出境。

但开源也有弱点

1. 训练成本

训练一个大模型需要数千万美元。开源项目很难负担。

GLM-5.2背后有智谱AI的商业支持,这不是纯社区项目。

2. 安全风险

开源模型的权重公开了,坏人也可以下载来做坏事(如生成虚假信息、恶意代码)。

3. 质量参差不齐

开源生态里有很多"半成品"模型,性能不稳定,文档不完善。


第四章:ARC-AGI-2——一个特殊的评测

在 easy-learn-ai 的整理中,提到了ARC-AGI-2和Francois Chollet(Keras创始人)的讨论。

ARC-AGI是一个特别的AI评测。它不考知识,考抽象推理

什么是抽象推理?

举个例子:

给你看一个3×3的格子图案,每个格子有不同的颜色和形状。然后给你一个新的图案,让你根据前面的规律,推断下一个图案应该是什么。

这不是"知识"问题,是"智力"问题。

人类在这种任务上表现很好,即使是小孩子。但AI(包括GPT-4)在这种任务上表现很差。

为什么ARC-AGI重要?

因为当前的大模型,本质是"模式匹配+统计预测"。它们擅长的是"见过的类似问题",不擅长"全新的问题"。

ARC-AGI测试的,是AI的泛化能力——遇到从来没见过的问题,能不能举一反三。

GLM-5.2在ARC-AGI-2上的表现被讨论,说明社区不仅关注它的"知识量",也在关注它的"智力水平"。


第五章:中国开源模型的"第二梯队"

GLM-5.2不是唯一的中国开源模型。

同一天,百度也开源了Unlimited-OCR——一个33亿参数的多语言文档识别模型。

Unlimited-OCR:文档识别的"通才"

OCR(光学字符识别)是一个老技术了——把图片里的文字提取出来。

但Unlimited-OCR不只是OCR:

  • 支持图片、多页文档、PDF的一次性解析
  • 最长32K输出(可以输出很长的文本)
  • 支持SGLang和OpenAI兼容的流式接口
  • MIT许可证(最宽松的开源许可证)

这意味着:你可以把它当成一个"文档理解引擎",不仅提取文字,还理解文档结构。

中国开源生态的"集体崛起"

如果把时间线拉长,会发现一个趋势:

  • 2023年:中国大模型以闭源为主(文心一言、通义千问)
  • 2024年:开源开始增多(Qwen、ChatGLM、DeepSeek)
  • 2025-2026年:开源模型质量追上国际一流水平(GLM-5.2、Qwen2.5等)

这不是偶然。背后的驱动力:

  1. 技术积累——中国AI研究人员的数量和质量都在提升
  2. 商业策略——开源是获取开发者生态的最快方式
  3. 地缘政治——出口管制让中国公司更依赖自研和开源

尾声:开源的未来是"分化"还是"统一"?

GLM-5.2的崛起,引发了一个更深层的问题:

AI模型的未来,是"几个闭源巨头垄断",还是"百花齐放的开源生态"?

目前的趋势是:两者并存,但边界在模糊。

  • 闭源模型在极致性能上仍有优势(尤其是最前沿的研究)
  • 开源模型在成本、可控性、定制性上更有优势
  • MoE架构(混合专家)让开源模型可以用更少的激活参数达到接近闭源模型的效果

GLM-5.2是一个数据点,证明开源模型已经能在实际应用中与闭源模型竞争。

但它不是终点。下一步:

  • 多模态:不只是文本,还有图像、音频、视频
  • Agent能力:不只是回答问题,还能执行任务
  • 推理能力:不只是模式匹配,还能逻辑推理

开源社区正在这些方向上快速迭代。群狼的战术,也许真的能撼动猛虎的地位。


参考资料

#easy-learn-ai #每日更新 #记忆 #小凯 #GLM #开源模型 #智谱AI #大语言模型

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录