Python 不是万能代理:Multi-LCB 撕开了大模型代码能力的遮羞布
Python 不是万能代理:Multi-LCB 撕开了大模型代码能力的遮羞布
> GigaCode 团队把 LiveCodeBench 从 Python 单语种扩展到 12 种编程语言,测试了 24 个主流大模型。结果不意外却触目惊心:几乎所有模型都是"Python 特化选手"——在 Python 上呼风唤雨,换个语言就现原形。GPT-OSS-120B 成了唯一一个跨语言表现相对均衡的模型,而 Qwen3-235B 虽然 Python 最强,但在 Go、Rust、Ruby 上被 GPT-OSS-120B 反超。这篇论文的价值不在于发现了新大陆,而在于给整个行业立了一面镜子。
---
一、问题的本质:代码大模型在测什么?
LiveCodeBench(LCB)是 2024 年以来最火的代码能力测评基准。它解决了前辈们(HumanEval、MBPP)最头疼的三个问题:
1. 数据污染:按发布日期过滤,只测模型训练截止日期之后的新题 2. 题库饱和:持续从 LeetCode、AtCoder、Codeforces 抓取新题 3. 场景单一:不只考函数填空,考的是完整的问题解决
但 LCB 有一个致命盲区:只测 Python。
这就像一个驾校只考直角转弯,然后声称能判断一个人会不会开车。现实工程里,开发者每天都在多语言环境中切换——C++ 写系统、Java 写企业级、JavaScript 写前端、Go 写微服务、Rust 写高性能。一个只会 Python 的"全栈工程师",在真实世界里寸步难行。
Multi-LCB 的出现,就是要回答一个被长期回避的问题:大模型的代码能力,到底是"通用编程智能",还是"Python 记忆术"?
---
二、12 种语言、24 个模型、同一个题库
2.1 语言选择
Multi-LCB 覆盖的 12 种语言不是拍脑袋选的,而是基于 2025 年四大排名(TIOBE、GitHub Octoverse、Stack Overflow、RedMonk)的交叉验证:
| 语言 | 类型系统 | 内存管理 | 主要场景 |
|---|---|---|---|
| Python | 动态 | GC | 数据/AI |
| C++ | 静态 | 手动/RAII | 系统/性能 |
| Java | 静态 | GC | 企业/JVM |
| C# | 静态 | GC | 企业/.NET |
| Go | 静态 | GC | 云原生/微服务 |
| Rust | 静态 | 所有权 | 系统/安全 |
| JavaScript | 动态 | GC | Web/前端 |
| TypeScript | 静态 | GC | Web/全栈 |
| Ruby | 动态 | GC | Web/脚本 |
| PHP | 动态 | GC | Web/后端 |
| Kotlin | 静态 | GC | Android/JVM |
| Scala | 静态 | GC | 大数据/JVM |
2.2 技术核心:把函数式测评统一为 STDIN/STDOUT
LCB 的原生题目有两种格式:
- AtCoder/Codeforces:天然 STDIN/STDOUT,直接可用
- LeetCode:函数式(给函数签名,测返回值)
转换规则:
- 标量输入/输出:直接映射
- 一维数组:空格分隔值
- 二维数组:首行指定行数,后续每行空格分隔
---
三、实验结果:Python 霸权与语言鸿沟
3.1 总体性能格局(Top 10 模型,Feb-May 2025 数据)
| 模型 | Python | C++ | Java | Go | Rust | Ruby | Scala | 跨语言均值 |
|---|---|---|---|---|---|---|---|---|
| GPT-OSS-120B* (Medium) | 71.1 | 72.3 | 70.4 | 69.9 | 70.5 | 70.2 | 54.1 | 67.8 |
| Qwen3-235B-A22B-Thk* | 74.0 | 75.8 | 73.9 | 56.7 | 47.7 | 49.4 | 57.6 | 64.0 |
| DeepSeek-R1-0528* | 66.3 | 68.0 | 67.8 | 55.0 | 63.1 | 62.4 | 62.3 | 63.1 |
| GPT-OSS-20B* (Medium) | 63.6 | 65.7 | 62.7 | 59.9 | 61.9 | 61.7 | 43.1 | 59.8 |
| Qwen3-30B-A3B-Thk* | 64.0 | 65.7 | 62.4 | 44.1 | 51.7 | 42.1 | 43.6 | 53.2 |
1. Python 不是代理:Qwen3-235B 在 Python 上以 74.0% 领先,但在 Go(56.7%)、Rust(47.7%)、Ruby(49.4%)上被 GPT-OSS-120B 全面反超。如果只看 Python 排名选模型,你会选错。
2. GPT-OSS-120B 的跨语言一致性令人惊讶:120B 参数量的模型在 12 种语言上的标准差只有 5.9%,而 Qwen3-235B 高达 9.4%。OpenAI 的 GPT-OSS 在训练时显然有意识地覆盖了多语言代码分布。
3.2 语言难度梯度
论文用箱线图展示了所有模型在 12 种语言上的 Pass@1 分布:
| 梯队 | 语言 | 平均 Pass@1 |
|---|---|---|
| 第一梯队 | Python | ~48.2% |
| 第一梯队 | Java | ~44% |
| 第一梯队 | C++ | ~44% |
| 第二梯队 | C#、Ruby、PHP | ~33-39% |
| 第二梯队 | Go、Rust、Kotlin | ~33-39% |
| 第二梯队 | JavaScript、TypeScript | ~33-39% |
| 第三梯队 | Scala | <29% |
3.3 Python 过拟合:散点图不会撒谎
Figure 3 的散点图展示了每个模型的 Python Pass@1 vs 跨语言平均 Pass@1。几乎所有点都在 x=y 对角线上方——Python 表现系统性高估真实跨语言能力。
最夸张的是 OpenReasoning-Nemotron-32B 和 OpenCodeReasoning-Nemotron-1.1-32B:
- Python 上 64%+,其他语言平均不到 30%
- 差距超过 30 个百分点
3.4 静态类型语言更难
数据明确显示:静态类型语言(C++、Java、Rust、Go、C#、Kotlin、Scala、TypeScript)的平均表现普遍低于动态类型语言(Python、JavaScript、Ruby、PHP)。
可能原因: 1. 训练数据偏斜:Python 占代码语料的最大份额 2. 类型系统复杂度:静态类型语言的语法和编译约束更严格 3. 推理链更长:模型需要同时考虑算法逻辑和类型正确性 4. 错误反馈更延迟:编译错误比运行时错误更难调试
---
四、数据泄露:不只是有没有,还分语言
Multi-LCB 继承了 LCB 的日期过滤机制,但论文发现了一个更微妙的问题:泄露程度因语言而异。
Figure 5 的月度趋势图显示:
- 模型在训练截止日期之前的题目上得分显著更高
- 跨越截止日期后,分数出现阶梯式下跌
- 但下跌的幅度在不同语言上不一样
---
五、谁才是真正的多语言选手?
5.1 推理模型 vs 指令模型
数据毫不含糊:**推理模型(带 * 号)全面碾压指令模型**。
| 类型 | 代表 | Python | 跨语言均值 |
|---|---|---|---|
| 推理 | GPT-OSS-120B* | 71.1% | 67.8% |
| 推理 | Qwen3-235B-Thk* | 74.0% | 64.0% |
| 推理 | DeepSeek-R1* | 66.3% | 63.1% |
| 指令 | Qwen3-235B-Instr | 43.8% | 37.5% |
| 指令 | Qwen2.5-Coder-32B | 27.5% | 25.0% |
5.2 模型规模效应
论文中测试的模型从 7B(OlympicCoder-7B)到 685B(Qwen3-235B)不等。
趋势:
- 同系列内,规模越大,跨语言表现越好
- 但规模不是唯一因素:GPT-OSS-20B*(20B)的跨语言均值(59.8%)超过了 Qwen3-30B-A3B-Thk*(53.2%)
- 训练数据的质量和分布可能比参数量更重要
5.3 特殊案例:DeepSeek-R1-Distill 系列
R1 蒸馏出来的小模型表现出极端的语言能力分化:
- DeepSeek-R1-Distill-Qwen-32B*:Python 45.9%,但 Rust 仅 21.2%,Scala 仅 8.7%
- DeepSeek-R1-Distill-Qwen-14B*:Python 41.8%,Rust 仅 3.7%,Scala 仅 3.3%
---
六、对行业的启示
6.1 测评基准的反思
如果 Multi-LCB 的结果具有代表性,那么过去两年基于 HumanEval、MBPP、LCB(Python-only)的所有"代码能力排名"都可能有系统性偏差:
- 排名靠前的模型可能只是 Python 更强
- "代码能力"的提升可能只是 Python 语料规模的扩大
- 真正需要多语言能力的场景(企业开发、系统编程、全栈开发)被严重低估
6.2 训练数据的启示
论文的结论很明确:
> "We suppose that model performance could be improved by increasing training coverage of non-Python programming languages."
当前代码大模型的训练数据高度偏向 Python(GitHub 上 Python 仓库最多、StackOverflow 上 Python 问答最多、技术文档中 Python 示例最多)。要培养真正的"多语言编程智能",需要在训练阶段就平衡各语言的分布。
6.3 实际选型建议
如果你在选择代码助手,不能只看 Python benchmark:
- 全栈/多语言团队:优先考虑 GPT-OSS-120B(跨语言最均衡)
- Python 数据科学团队:Qwen3-235B-Thk 或 DeepSeek-R1 性价比更高
- 系统编程/嵌入式:关注 C++、Rust 的专项分数,而非总分
- Java/Kotlin 安卓开发:GPT-OSS 系列在 JVM 语言上表现稳定
七、局限与展望
论文坦诚列出了几个局限:
1. 语言覆盖不全:缺少 Swift、Haskell、R、Julia 等 2. 任务类型局限:只测了算法竞赛题,没测 API 集成、调试、代码审查等真实工程场景 3. STDIN/STDOUT 格式可能引入额外难度:某些语言天然更适合函数式编程,强制转换为 STDIN/STDOUT 可能不公平 4. 只测了开源模型:GPT-4、Claude、Gemini 等闭源模型的表现未知
未来计划:
- 扩展语言(Swift、Haskell、R、Julia)
- 评估闭源模型
- 支持 LCB-Pro 等扩展基准
八、一句话总结
Multi-LCB 的价值不是发现了什么惊天动地的技术突破,而是做了件早该有人做的事:把代码大模型从 Python 的温室里拉出来,放在 12 种语言的竞技场里真刀真枪地比试。结果是——大多数模型都感冒了。
GPT-OSS-120B 的跨语言一致性暗示了一个重要方向:真正的代码智能应该是语言无关的算法推理能力,而不是对某一语言语料的过度记忆。论文的数据证明,当前行业距离这个目标还有很远。
> "Our results establish Multi-LCB as a rigorous new benchmark for multi-programming-language code evaluation, directly addressing LCB's primary limitation and exposing critical gaps in current LLM capabilities."
---
参考信息
- 论文:Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
- 作者:Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Pavel Adamenko, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev
- 机构:GigaCode, Yandex School of Data Analysis
- 论文链接:https://arxiv.org/abs/2606.20517
- 代码库:https://github.com/Multi-LCB/Multi-LCB
- 基准:12 种编程语言(Python, C++, Java, Go, JS, TS, C#, Rust, Ruby, PHP, Kotlin, Scala)
- 测试模型:24 个(7B-685B,推理模型 + 指令模型)
- 核心发现:Python 过拟合、静态类型语言更难、GPT-OSS-120B 跨语言最均衡、数据泄露因语言而异
- 提交:ICLR 2026
*步子哥,这篇论文让我想到一个类比:现在的代码大模型测评就像只考中文作文来判断一个人的文学素养——中文好的人不一定懂莎士比亚,Python 强的模型不一定能写 Rust。Multi-LCB 的价值在于给行业立了一个"多语种文学考试"的标准。真正值得注意的是 GPT-OSS-120B 的表现——20B 参数的 GPT-OSS 在跨语言均值上超过了 30B 的 Qwen3,这说明 OpenAI 在训练数据分布上做了功课。规模竞赛的终点可能不是参数量的军备竞赛,而是数据分布的质量和均衡性。*
#代码大模型 #MultiLCB #LiveCodeBench #多语言编程 #Python过拟合 #代码测评 #GPT-OSS #Qwen3 #DeepSeek #ICLR2026
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens