非洲语言税：同样一句话，恩科文字用户要多付9倍token钱

同样一句话，非洲人要多付 9 倍的钱

你在用 GPT 写一封邮件。用英文写，消耗 100 个 token。用中文写，大概 150 个 token。用阿姆哈拉语（埃塞俄比亚官方语言）写，700 个 token。用恩科文字（西非书面语）写，892 个 token。

商业大模型按 token 计费、按 token 算延迟、按 token 分配上下文窗口。所以同一个意思，用恩科文字表达比用英文多花 8.92 倍的钱、等 8.92 倍的时间、占用 8.92 倍的上下文空间。

这不是模型偏见，这是分词器偏见。而且它发生在模型被调用之前——你还没开始推理，不公平就已经 baked in 了。

这就是 The African Language Tax——第一份系统量化非洲语言 token 化代价的研究。

分词器：被忽视的偏见入口

大模型的流水线分三步：分词 → 嵌入 → 推理。大多数偏见研究集中在推理阶段（模型输出有歧视），少数关注嵌入阶段（词向量有偏差）。几乎没人系统研究过分词阶段。

但分词器是第一道门。它把文本切成子词单元（subword token），每个 token 对应一个 ID。商业模型按 token 数量计费，所以"同一句话切成多少个 token"直接决定了成本。

问题在于：主流分词器（GPT 的 tiktoken、Llama 的 SentencePiece、Claude 的分词器等）的训练语料以英文为主，对其他语言的切分效率差异巨大。

英文 "hello world" 可能被切成 2 个 token。中文"你好世界"可能被切成 4-6 个 token。阿姆哈拉语的一个词可能被切成 7-9 个 token——因为分词器没见过这个文字，只能按字符切。

这种差异叫 token fertility（token 生育率）：同一个词在不同语言下被切成多少个 token。生育率越高，成本越高。

20 种语言，11 个分词器，一个残酷的排行榜

论文测了 20 种非洲语言，覆盖五个语系和三种文字系统（拉丁字母、吉兹字母/埃塞俄比亚文、恩科文字），用平行语料（FLORES-200+）确保不同语言的文本内容相同——这样测出来的差异纯粹是分词器造成的，和内容无关。

测试了 11 个前沿分词器：GPT-5/o200k_base、GPT-4/cl100k_base、Claude、Llama 3、Gemma 4、Qwen 3 等。

核心数字：

指标	数值
中位 token 溢价（GPT-5，所有非洲语言）	1.88×
最高 token 溢价（恩科文字，GPT-5）	8.92×
阿姆哈拉语溢价（GPT-5）	7.4×
最优分词器（Gemma 4）平均溢价	2.38×
最差分词器（cl100k_base）平均溢价	3.31×
最低有效上下文窗口占比（恩科文字 vs 英文）	11%

每一个非洲语言在每一个分词器上都比英文贵。没有例外。最好的分词器（Gemma 4）只是把平均溢价从 3.31× 降到 2.38×，但没有消除它。

文字系统效应：比语言本身更关键

最有意思的发现是：决定 token 溢价的主要因素不是语言本身，而是文字系统。

拉丁字母书写的非洲语言（豪萨语拉丁文、斯瓦希里语、约鲁巴语等）：溢价中等，1.5×-3× 之间。因为这些语言用的字母和英文一样，分词器至少能复用英文的子词。
吉兹字母书写的语言（阿姆哈拉语、提格里尼亚语）：溢价很高，5×-7×。吉兹字母在训练语料中极少出现，分词器基本按字符切。
恩科文字：溢价最高，7×-9×。恩科文字是 1949 年发明的西非书面语，在主流分词器的训练语料中几乎不存在。

这个发现的政策含义很直接：如果要降低非洲语言的 token 成本，优先扩展分词器的文字系统覆盖，而不是语言覆盖。给分词器加 1000 个阿姆哈拉语词汇的效果，远不如给它加吉兹字母的子词单元。

真金白银：部署成本计算

论文不只是算 token 数，还把 token 溢价翻译成了部署经济学。

三个场景：

场景 A：高并发聊天 一个日均 100 万次请求的聊天 API，如果用户用英文，每次请求平均 500 token，总成本 X。如果用户用阿姆哈拉语，每次请求变成 3700 token，总成本 7.4X。按 GPT-5 的定价（$5/M input token），英文用户每天花 $2500，阿姆哈拉语用户每天花 $18,500。一年差 $5.8M。

场景 B：重输出生成 对于需要生成长文本的场景（报告、摘要），输出端的溢价同样适用。用英文生成 1000 token 的报告，用恩科文字生成同样内容的报告需要 8920 token——不仅贵 8.92 倍，还慢 8.92 倍（因为自回归生成是逐 token 的）。

场景 C：上下文受限场景 对于上下文窗口有限的场景（比如 4K token 的轻量模型），英文用户可以用 4000 token 的上下文，恩科文字用户只有 4000/8.92 ≈ 448 token 的有效上下文——只剩英文的 11%。这意味着很多需要长上下文的任务（RAG、长文档摘要）在恩科文字上根本做不了。

Qwen 3 的例外：一个有趣的发现

在所有分词器中，Qwen 3 对恩科文字的表现是个例外。其他分词器对恩科文字的溢价都是 8-9×，Qwen 3 把它降到了相对较低的水平。原因很简单：Qwen 3 的训练语料中包含了较多非洲和亚洲非主流文字的数据。

这说明分词器的偏见是可以修复的——只要在训练语料中加入足够的非主流文字数据，溢价就能大幅降低。问题不是技术做不到，而是主流分词器厂商没有动力去做——非洲语言的商业市场太小了。

诚实评价

几个需要说明的点：

1. Token fertility 不是唯一成本。论文承认，除了 token 数量，还有模型质量差异（非洲语言上模型本身也更差）、网络延迟差异等因素。实际部署中的不平等比论文测量的更大。 2. 平行语料的翻译质量可能影响测量。如果 FLORES-200+ 的阿姆哈拉语翻译本身有问题（比如翻译过长），会人为抬高 token 数。论文用了 SIB-200 和 MAFAND-MT 做鲁棒性检查，Pearson r=0.9998，说明结果稳定。 3. 20 种语言不能覆盖整个非洲。非洲有 2000+ 种语言，论文测的 20 种已经是主要语言，但长尾语言的情况可能更糟。 4. H4（溢价与模型准确率的相关性）用的是第三方数据，因果关系不能完全确认。高 token 溢价的语言模型表现更差，但这可能是因为训练数据少，而不是 token 化本身导致的。

对行业的启示

这篇论文最大的贡献不是数字本身，而是把一个被忽视的问题摆到了台面上：分词器是 AI 公平性的第一道门槛，而且这道门槛在模型被调用之前就已经筛人了。

当前 AI 公平性研究的主流是"让模型输出不歧视"，但这篇论文指出：即使模型本身完全无偏见，分词器的 token 分配不均已经造成了结构性歧视。一个非洲用户和英语用户用同一个模型，非洲用户付更多的钱、等更长的时间、得到更短的上下文——这一切发生在模型推理之前。

修复方案很清晰：扩展分词器的文字系统覆盖。Gemma 4 已经证明这条路走得通——它把平均溢价从 3.31× 降到了 2.38×。Qwen 3 在恩科文字上的表现也证明，只要有足够多的训练数据，9× 的溢价可以大幅降低。

问题是动力。主流分词器由商业公司维护，非洲语言的商业市场不足以激励它们投入资源优化。这篇论文的作者（Olaoye Anthony Somide，来自 DataLens Africa Research 和 CipherSense AI Technologies）发布了开源测量工具 afri-fertility，希望推动社区关注这个问题。

当我们在讨论 AI 民主化的时候，不能只讨论模型权重是否开源、API 是否便宜。如果分词器本身就在收"非洲税"，那开源和便宜只是英语世界的开源和便宜。

---

论文： The African Language Tax: Quantifying the Cost, Latency, and Context Penalty of Tokenizing African Languages in Frontier LLMs arXiv： https://arxiv.org/abs/2606.24460 HTML： https://arxiv.org/html/2606.24460v1 工具： https://github.com/CipherSenseAI/afri-fertility 作者： Olaoye Anthony Somide（DataLens Africa Research / CipherSense AI Technologies Ltd）