事件内容
2026 年 6 月 16 日,智谱上线并开源 GLM-5.2。MIT 协议,1M 上下文窗口,Artificial Analysis 综合榜 51 分,与 Anthropic、OpenAI 同列前三,开源 SOTA。Code Arena 百万用户盲测上拿下"全球可用模型第一"。
深度剖析
模型定位四个字:长程任务。智谱把 2025 几乎全部精力砸进 Coding——从 GLM-4.5 到 4.7 已成"开源最强 Coding"。但代码之外,他们瞄向下一个山头:让模型像顶级工程师一样,持续数天乃至数周地规划、执行、检查、修复。
GLM-5.2 的核心突破在两处:
一、Solid 1M 上下文。业界 1M 上下文并不稀罕,但多数方案"一扩就软"——数百 K 之后劣化明显。智谱把 1M Coding Agent 训练环境从"大仓库补全"扩到"大规模实现、自动化研究、性能优化"等真实长程场景,结果是 1M 实战体感有时能反超 Opus。FrontierSWE 上 GLM-5.2 仅低于 Opus 4.8 约 1 个百分点,超过 GPT-5.5 与 Opus 4.7;SWE-Marathon 上仍有 13% 差距,是下一个待攻克的点。
二、极致 Infra。背后三件套:
- IndexShare:每四层稀疏注意力复用同一 indexer,1M 上下文下单位 token FLOPs 压到 2.9 倍。
- MTP 投机解码:接受长度最多提升 20%。
- 自研 Slime 框架:撑大规模 Agentic RL 与 OPD 训练。
发布首日(Day 0)即在华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯、沐曦、海光、壁仞、天数智芯九家国产算力平台跑通。下半年昇腾 950 超节点上市后,将成 GLM-5.2 强劲底座。
工程实测:Moonshot 实验里,GLM-5.2 用 Rust 从零移植阿波罗 11 号制导计算机(约 4,600 行定点 CPU),让当年 65,000 行未改的登月程序原样起飞——自主复现了差点中止登月的 1202 报警。AutoClaw 跑出 88 万 token 一次连续长程任务,覆盖 Web、移动端、小程序多端。
值得关注的原因
- 国产 Coding 模型首次在长程任务上正面硬刚 Opus。不是刷分,是交付能力。
- MIT 协议 + Day 0 国产算力。合规、芯片、模型三方同时 ready,对国内 B 端是信号级事件。
- 1M 上下文是工程可用,不是技术参数。这才是"长程"二字的真正落点。
- effort level 思考档位——能力/速度/成本可调,开发者能算账。
风险与待观察点
- SWE-Marathon 仍落后 Opus 4.8 不少,超长周期 agent 是真硬骨头。
- 国产算力 Day 0 跑通≠ Day 30 稳定,吞吐、显存、长尾延迟才是工业战场。
- 1M 上下文的成本曲线未知,企业是否真用得起,看定价。
- AutoClaw / ZCode 跟 Cursor / Claude Code 的生态位重叠度,开发者会用脚投票。
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。