想象一下,你面前摆着一本用完全陌生的语言写成的语法书——里面全是你看不懂的符号、奇怪的词形变化规则、还有几百个生词的词典。给你半小时,然后让你把一段这种语言的句子翻译成英语。
这不是科幻小说的设定,这是苏黎世大学和 ETH Zurich 的研究者们给大语言模型出的考题。而他们的发现令人意外:用强化学习(RL)训练的模型,在翻译从未见过的语言时,比用传统监督微调(SFT)训练的模型表现更好——尽管 RL 模型在训练时连这种语言的影子都没见过。
问题:死记硬背 vs 学会学习
当前 LLM 处理低资源语言翻译有两条主流路线:
路线一:继续训练。 给模型灌一堆特定语言的平行语料,让它"记住"这门语言。问题是,模型会过拟合——训练时翻译得不错,换个没见过的语言就歇菜。
路线二:上下文学习。 把语法书和词典塞进 prompt,让模型当场"查资料"翻译。问题是,模型往往不会真的去读这些资料——有研究发现,LLM 翻译未见语言时主要靠平行例句,语法描述基本不看。
这两条路的共同缺陷:模型在记忆特定语言,而不是在学习如何利用语言资料。
方法:用 RL 教模型"学会学习"
研究者的核心洞察是:翻译未见语言本质上是一个元学习问题。模型需要的不是记住某门语言的词汇和语法,而是掌握一种元技能——上下文利用能力(contextual leveraging):给定语法书和词典,如何有效地提取和应用其中的语言知识。
具体做法出奇地简单:
1. 训练数据:用 14 种低资源语言构建训练集,包括 8 种来自语法书的语言和 6 种罗曼什语变体。每个训练样本包含:词典条目(每个源词约 2 条)、3-5 个平行句对、语法书节选(约 2800 tokens)。
2. RL 训练:把翻译质量指标 chrF 作为奖励信号,用 GRPO 算法训练模型。模型看到语法书和词典,尝试翻译,翻译得好就给奖励。
3. 关键设计:训练只用"已见语言"(Seen languages),测试时用"未见语言"(Unseen languages)——包括 Kalamang(一种巴布亚语言)和 4 种 OOD 语言。模型从未在训练中接触过这些语言。
结果:RL 的泛化碾压 SFT
实验结果清晰而有力:
已见语言上,SFT 更强。 这不意外——SFT 直接在这些语言上训练,当然翻译得好。
未见语言上,RL 碾压 SFT。 这才是关键发现。RL 训练的模型在从未见过的语言上翻译质量显著更好。
消融实验揭示机制。 研究者做了一个精巧的实验:测试时把上下文(词典+语法书)去掉。结果:
- SFT 模型去掉上下文后性能几乎不变——说明它根本没在用上下文,靠的是训练时记住的模式
- RL 模型去掉上下文后性能大幅下降——说明它确实在利用上下文中的语言知识
为什么 RL 能做到而 SFT 做不到?
SFT 的训练信号是"模仿正确翻译"。模型发现,最省力的方式是记住训练语言的模式,而不是去理解语法书。毕竟,语法书那么长,读懂它需要推理,而记住模式只需要记忆。
RL 的训练信号是"翻译质量"。模型发现,要获得高奖励,必须利用上下文中的语言知识——因为测试时的语言和训练时不同,死记硬背不管用。RL 逼着模型发展出真正的语言理解能力。
这和 RL 在数学推理上的成功异曲同工:RLVR(Reinforcement Learning with Verifiable Rewards)之所以在数学和编程上有效,不是因为它让模型记住了更多答案,而是因为它让模型学会了推理过程。现在,这篇论文把同样的逻辑延伸到了语言学习领域。
更大的图景
这项工作的意义超越了翻译本身。它提出了一个更深层的问题:什么样的训练方式能让模型获得可迁移的能力,而不是死记硬背?
答案似乎是:给模型一个目标(翻译质量),让它自己探索如何利用可用资源(语法书+词典),比直接告诉它答案(SFT)更能培养泛化能力。这和人类学习的规律惊人地一致——填鸭式教育培养考试机器,探究式学习培养真正的理解力。
对于濒危语言的保存,这项工作也有实际意义。全球约 7000 种语言中,大部分缺乏足够的平行语料来训练翻译系统。但如果模型能学会"读语法书翻译",那只要有语言学家的田野调查记录,就有可能为这些语言建立翻译工具。
---
论文:Reinforcement Learning Elicits Contextual Learning of Unseen Language Translation
代码:github.com/hanxuhu/rl-new-language
作者:Hanxu Hu, Zdeněk Šnajdr, Pinzhen Chen, Jannis Vamvas, Rico Sennrich (University of Zurich, ETH Zurich, Queen's University Belfast)