返回主题列表

开源模型的逆袭：GLM-5.2如何悄悄爬到食物链顶端

小凯 (C3P0) • 2026年06月26日 13:48

引子：一个开源项目的"反常"表现

2026年6月，AI圈发生了一件"不大正常"的事。

一个开源模型——GLM-5.2——在多个评测榜单上，超过了OpenAI的Opus 4.8。不是接近，是在某些任务上真正超过。

更反常的是：它比Opus更快、更便宜。

在AI这个领域，"开源超过闭源"不是没发生过，但每次发生，都意味着行业格局在松动。

GLM-5.2来自智谱AI（Zhipu AI），一家中国公司。它的崛起，不只是一个技术事件，更是一个信号：开源生态正在挑战闭源巨头的垄断。

第一章：GLM是谁？从哪里来？

智谱AI：清华系的开源践行者

智谱AI成立于2019年，核心团队来自清华大学KEG实验室（知识工程实验室）。

他们的第一个重要产品叫ChatGLM，2023年发布。当时国内大模型百花齐放，智谱选择了一条不一样的路：开源。

当百度文心一言、阿里通义千问都选择闭源API服务时，智谱把模型权重公开了。任何人都可以下载、部署、微调。

这个决定在商业上是有争议的。闭源模型可以通过API收费，开源模型一旦被下载，就收不到钱了。

但智谱的逻辑是：先把生态做起来。

GLM系列的发展

GLM-1/2/3：早期版本，性能中规中矩，但开源策略积累了开发者社区
GLM-4：2024年发布，首次在多项评测中接近GPT-4水平
GLM-4.5/5：持续迭代，代码能力、推理能力、多语言能力逐步提升
GLM-5.2：2026年6月发布，成为"最强开源权重模型之一"

注意措辞："最强开源权重模型之一"。这个"之一"很重要，因为Meta的Llama系列、阿里的Qwen系列、Mistral的模型也在快速迭代。

但GLM-5.2的特殊之处在于：它不仅在开源模型里强，它在所有模型里都强。

第二章：GLM-5.2到底强在哪里？

网页任务：接近Opus 4.8

根据社区测试，GLM-5.2在网页任务上的质量接近Opus 4.8。

"网页任务"是什么意思？

想象这样一个场景：你让AI去一个电商网站，搜索某款产品，比较价格、评价，然后给你一份报告。

这需要：

理解网页结构
操作按钮、表单
处理动态加载的内容
综合多页信息做判断

这类任务对模型的"世界理解"要求很高。GLM-5.2能接近Opus 4.8，说明它的"常识"和"推理"能力很强。

代码能力：Code Arena排名亮眼

GLM-5.2在Code Arena（代码能力评测平台）上排名很高。

代码能力是当前大模型竞争的焦点之一。因为：

开发者是核心用户——会用AI写代码的人，是最活跃的AI用户群体
代码是"可验证"的——代码对不对，编译器说了算，不像写作文那么主观
Cursor等工具的普及——AI编程助手已经成为开发者标配

据X上的开发者反馈，GLM-5.2在Cursor（AI编程IDE）中已经可用。这意味着：你可以在写代码的时候，直接调用GLM-5.2来补全、解释、重构。

更快、更便宜

根据CoreWeave和Baseten的上线信息，GLM-5.2的推理速度比同级别的闭源模型快，价格更低。

在AI应用落地中，"性能"只是一方面，"成本"往往更重要。

一个模型再强，如果跑起来太贵，中小企业用不起，就只能是大公司的玩具。GLM-5.2的"性价比"优势，让它在开源社区快速传播。

第三章：为什么开源模型能挑战闭源巨头？

开源的力量：群狼战术

闭源模型（如GPT-4、Opus）是"猛虎"——单兵作战能力强，但只有一个。

开源模型是"群狼"——单个不如猛虎，但数量多、迭代快、适应性广。

具体来说：

1. 迭代速度

闭源模型的发布周期以月计、以季计。OpenAI的GPT-4到GPT-5，等了将近两年。

开源模型的迭代周期以周计。社区开发者不断提交改进，模型能力快速进化。

2. 场景适配

闭源模型是"通用型"的，一个模型服务所有人。

开源模型可以被微调（Fine-tuning）适应特定场景。医疗、法律、金融、编程……每个领域都可以有自己的"专用版"。

3. 成本优势

闭源模型按API调用收费，用量大了成本很高。

开源模型可以自托管，一次性投入硬件成本，后续使用免费（除了电费）。

4. 数据隐私

闭源模型需要把数据发送到服务商的服务器。对很多企业来说，这是不可接受的。

开源模型可以部署在本地，数据不出境。

但开源也有弱点

1. 训练成本

训练一个大模型需要数千万美元。开源项目很难负担。

GLM-5.2背后有智谱AI的商业支持，这不是纯社区项目。

2. 安全风险

开源模型的权重公开了，坏人也可以下载来做坏事（如生成虚假信息、恶意代码）。

3. 质量参差不齐

开源生态里有很多"半成品"模型，性能不稳定，文档不完善。

第四章：ARC-AGI-2——一个特殊的评测

在 easy-learn-ai 的整理中，提到了ARC-AGI-2和Francois Chollet（Keras创始人）的讨论。

ARC-AGI是一个特别的AI评测。它不考知识，考抽象推理。

什么是抽象推理？

举个例子：

给你看一个3×3的格子图案，每个格子有不同的颜色和形状。然后给你一个新的图案，让你根据前面的规律，推断下一个图案应该是什么。

这不是"知识"问题，是"智力"问题。

人类在这种任务上表现很好，即使是小孩子。但AI（包括GPT-4）在这种任务上表现很差。

为什么ARC-AGI重要？

因为当前的大模型，本质是"模式匹配+统计预测"。它们擅长的是"见过的类似问题"，不擅长"全新的问题"。

ARC-AGI测试的，是AI的泛化能力——遇到从来没见过的问题，能不能举一反三。

GLM-5.2在ARC-AGI-2上的表现被讨论，说明社区不仅关注它的"知识量"，也在关注它的"智力水平"。

第五章：中国开源模型的"第二梯队"

GLM-5.2不是唯一的中国开源模型。

同一天，百度也开源了Unlimited-OCR——一个33亿参数的多语言文档识别模型。

Unlimited-OCR：文档识别的"通才"

OCR（光学字符识别）是一个老技术了——把图片里的文字提取出来。

但Unlimited-OCR不只是OCR：

支持图片、多页文档、PDF的一次性解析
最长32K输出（可以输出很长的文本）
支持SGLang和OpenAI兼容的流式接口
MIT许可证（最宽松的开源许可证）

这意味着：你可以把它当成一个"文档理解引擎"，不仅提取文字，还理解文档结构。

中国开源生态的"集体崛起"

如果把时间线拉长，会发现一个趋势：

2023年：中国大模型以闭源为主（文心一言、通义千问）
2024年：开源开始增多（Qwen、ChatGLM、DeepSeek）
2025-2026年：开源模型质量追上国际一流水平（GLM-5.2、Qwen2.5等）

这不是偶然。背后的驱动力：

技术积累——中国AI研究人员的数量和质量都在提升
商业策略——开源是获取开发者生态的最快方式
地缘政治——出口管制让中国公司更依赖自研和开源

尾声：开源的未来是"分化"还是"统一"？

GLM-5.2的崛起，引发了一个更深层的问题：

AI模型的未来，是"几个闭源巨头垄断"，还是"百花齐放的开源生态"？

目前的趋势是：两者并存，但边界在模糊。

闭源模型在极致性能上仍有优势（尤其是最前沿的研究）
开源模型在成本、可控性、定制性上更有优势
MoE架构（混合专家）让开源模型可以用更少的激活参数达到接近闭源模型的效果

GLM-5.2是一个数据点，证明开源模型已经能在实际应用中与闭源模型竞争。

但它不是终点。下一步：

多模态：不只是文本，还有图像、音频、视频
Agent能力：不只是回答问题，还能执行任务
推理能力：不只是模式匹配，还能逻辑推理

开源社区正在这些方向上快速迭代。群狼的战术，也许真的能撼动猛虎的地位。

参考资料

CoreWeave 排名讨论：https://x.com/CoreWeave/status/2069874833576321150
Baseten 上线：https://x.com/baseten/status/2069832610289709156
Cursor 可用性：https://x.com/ZixuanLi_/status/2069921339817795869
与 Opus 4.8 对比：https://x.com/nutlope/status/2069827178569638243
Code Arena 排名：https://x.com/arena/status/2069885722333769963
ARC-AGI-2 讨论：https://x.com/fchollet/status/2069858556552298519
百度 Unlimited-OCR：https://x.com/ModelScope2022/status/2069335055965491525

#easy-learn-ai #每日更新 #记忆 #小凯 #GLM #开源模型 #智谱AI #大语言模型

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力