RL让AI学会翻译从未见过的语言：不是死记硬背，而是学会了怎么学语言

想象一下，你面前摆着一本用完全陌生的语言写成的语法书——里面全是你看不懂的符号、奇怪的词形变化规则、还有几百个生词的词典。给你半小时，然后让你把一段这种语言的句子翻译成英语。

这不是科幻小说的设定，这是苏黎世大学和 ETH Zurich 的研究者们给大语言模型出的考题。而他们的发现令人意外：用强化学习（RL）训练的模型，在翻译从未见过的语言时，比用传统监督微调（SFT）训练的模型表现更好——尽管 RL 模型在训练时连这种语言的影子都没见过。

问题：死记硬背 vs 学会学习

当前 LLM 处理低资源语言翻译有两条主流路线：

路线一：继续训练。 给模型灌一堆特定语言的平行语料，让它"记住"这门语言。问题是，模型会过拟合——训练时翻译得不错，换个没见过的语言就歇菜。

路线二：上下文学习。 把语法书和词典塞进 prompt，让模型当场"查资料"翻译。问题是，模型往往不会真的去读这些资料——有研究发现，LLM 翻译未见语言时主要靠平行例句，语法描述基本不看。

这两条路的共同缺陷：模型在记忆特定语言，而不是在学习如何利用语言资料。

研究者的核心洞察是：翻译未见语言本质上是一个元学习问题。模型需要的不是记住某门语言的词汇和语法，而是掌握一种元技能——上下文利用能力（contextual leveraging）：给定语法书和词典，如何有效地提取和应用其中的语言知识。

具体做法出奇地简单：

1. 训练数据：用 14 种低资源语言构建训练集，包括 8 种来自语法书的语言和 6 种罗曼什语变体。每个训练样本包含：词典条目（每个源词约 2 条）、3-5 个平行句对、语法书节选（约 2800 tokens）。

2. RL 训练：把翻译质量指标 chrF 作为奖励信号，用 GRPO 算法训练模型。模型看到语法书和词典，尝试翻译，翻译得好就给奖励。

3. 关键设计：训练只用"已见语言"（Seen languages），测试时用"未见语言"（Unseen languages）——包括 Kalamang（一种巴布亚语言）和 4 种 OOD 语言。模型从未在训练中接触过这些语言。

实验结果清晰而有力：

已见语言上，SFT 更强。 这不意外——SFT 直接在这些语言上训练，当然翻译得好。

未见语言上，RL 碾压 SFT。 这才是关键发现。RL 训练的模型在从未见过的语言上翻译质量显著更好。

消融实验揭示机制。 研究者做了一个精巧的实验：测试时把上下文（词典+语法书）去掉。结果：

这个消融实验是整篇论文最精彩的部分。它直接证明了：RL 训练让模型学会了"读语法书"，而 SFT 训练让模型学会了"背答案"。

SFT 的训练信号是"模仿正确翻译"。模型发现，最省力的方式是记住训练语言的模式，而不是去理解语法书。毕竟，语法书那么长，读懂它需要推理，而记住模式只需要记忆。

RL 的训练信号是"翻译质量"。模型发现，要获得高奖励，必须利用上下文中的语言知识——因为测试时的语言和训练时不同，死记硬背不管用。RL 逼着模型发展出真正的语言理解能力。

这和 RL 在数学推理上的成功异曲同工：RLVR（Reinforcement Learning with Verifiable Rewards）之所以在数学和编程上有效，不是因为它让模型记住了更多答案，而是因为它让模型学会了推理过程。现在，这篇论文把同样的逻辑延伸到了语言学习领域。

这项工作的意义超越了翻译本身。它提出了一个更深层的问题：什么样的训练方式能让模型获得可迁移的能力，而不是死记硬背？

答案似乎是：给模型一个目标（翻译质量），让它自己探索如何利用可用资源（语法书+词典），比直接告诉它答案（SFT）更能培养泛化能力。这和人类学习的规律惊人地一致——填鸭式教育培养考试机器，探究式学习培养真正的理解力。

对于濒危语言的保存，这项工作也有实际意义。全球约 7000 种语言中，大部分缺乏足够的平行语料来训练翻译系统。但如果模型能学会"读语法书翻译"，那只要有语言学家的田野调查记录，就有可能为这些语言建立翻译工具。

---

作者：Hanxu Hu, Zdeněk Šnajdr, Pinzhen Chen, Jannis Vamvas, Rico Sennrich (University of Zurich, ETH Zurich, Queen's University Belfast)