← 返回主题列表
✨步子哥
@steper · 2026年06月24日 17:47 · 0浏览

非洲语言税:同样一句话,恩科文字用户要多付9倍token钱

同样一句话,非洲人要多付 9 倍的钱

你在用 GPT 写一封邮件。用英文写,消耗 100 个 token。用中文写,大概 150 个 token。用阿姆哈拉语(埃塞俄比亚官方语言)写,700 个 token。用恩科文字(西非书面语)写,892 个 token。

商业大模型按 token 计费、按 token 算延迟、按 token 分配上下文窗口。所以同一个意思,用恩科文字表达比用英文多花 8.92 倍的钱、等 8.92 倍的时间、占用 8.92 倍的上下文空间。

这不是模型偏见,这是分词器偏见。而且它发生在模型被调用之前——你还没开始推理,不公平就已经 baked in 了。

这就是 The African Language Tax——第一份系统量化非洲语言 token 化代价的研究。

分词器:被忽视的偏见入口

大模型的流水线分三步:分词 → 嵌入 → 推理。大多数偏见研究集中在推理阶段(模型输出有歧视),少数关注嵌入阶段(词向量有偏差)。几乎没人系统研究过分词阶段。

但分词器是第一道门。它把文本切成子词单元(subword token),每个 token 对应一个 ID。商业模型按 token 数量计费,所以"同一句话切成多少个 token"直接决定了成本。

问题在于:主流分词器(GPT 的 tiktoken、Llama 的 SentencePiece、Claude 的分词器等)的训练语料以英文为主,对其他语言的切分效率差异巨大。

英文 "hello world" 可能被切成 2 个 token。中文"你好世界"可能被切成 4-6 个 token。阿姆哈拉语的一个词可能被切成 7-9 个 token——因为分词器没见过这个文字,只能按字符切。

这种差异叫 token fertility(token 生育率):同一个词在不同语言下被切成多少个 token。生育率越高,成本越高。

20 种语言,11 个分词器,一个残酷的排行榜

论文测了 20 种非洲语言,覆盖五个语系和三种文字系统(拉丁字母、吉兹字母/埃塞俄比亚文、恩科文字),用平行语料(FLORES-200+)确保不同语言的文本内容相同——这样测出来的差异纯粹是分词器造成的,和内容无关。

测试了 11 个前沿分词器:GPT-5/o200k_base、GPT-4/cl100k_base、Claude、Llama 3、Gemma 4、Qwen 3 等。

核心数字:

指标数值
中位 token 溢价(GPT-5,所有非洲语言)1.88×
最高 token 溢价(恩科文字,GPT-5)8.92×
阿姆哈拉语溢价(GPT-5)7.4×
最优分词器(Gemma 4)平均溢价2.38×
最差分词器(cl100k_base)平均溢价3.31×
最低有效上下文窗口占比(恩科文字 vs 英文)11%
每一个非洲语言在每一个分词器上都比英文贵。没有例外。最好的分词器(Gemma 4)只是把平均溢价从 3.31× 降到 2.38×,但没有消除它。

文字系统效应:比语言本身更关键

最有意思的发现是:决定 token 溢价的主要因素不是语言本身,而是文字系统

  • 拉丁字母书写的非洲语言(豪萨语拉丁文、斯瓦希里语、约鲁巴语等):溢价中等,1.5×-3× 之间。因为这些语言用的字母和英文一样,分词器至少能复用英文的子词。
  • 吉兹字母书写的语言(阿姆哈拉语、提格里尼亚语):溢价很高,5×-7×。吉兹字母在训练语料中极少出现,分词器基本按字符切。
  • 恩科文字:溢价最高,7×-9×。恩科文字是 1949 年发明的西非书面语,在主流分词器的训练语料中几乎不存在。
这个发现的政策含义很直接:如果要降低非洲语言的 token 成本,优先扩展分词器的文字系统覆盖,而不是语言覆盖。给分词器加 1000 个阿姆哈拉语词汇的效果,远不如给它加吉兹字母的子词单元。

真金白银:部署成本计算

论文不只是算 token 数,还把 token 溢价翻译成了部署经济学。

三个场景:

场景 A:高并发聊天 一个日均 100 万次请求的聊天 API,如果用户用英文,每次请求平均 500 token,总成本 X。如果用户用阿姆哈拉语,每次请求变成 3700 token,总成本 7.4X。按 GPT-5 的定价($5/M input token),英文用户每天花 $2500,阿姆哈拉语用户每天花 $18,500。一年差 $5.8M。

场景 B:重输出生成 对于需要生成长文本的场景(报告、摘要),输出端的溢价同样适用。用英文生成 1000 token 的报告,用恩科文字生成同样内容的报告需要 8920 token——不仅贵 8.92 倍,还慢 8.92 倍(因为自回归生成是逐 token 的)。

场景 C:上下文受限场景 对于上下文窗口有限的场景(比如 4K token 的轻量模型),英文用户可以用 4000 token 的上下文,恩科文字用户只有 4000/8.92 ≈ 448 token 的有效上下文——只剩英文的 11%。这意味着很多需要长上下文的任务(RAG、长文档摘要)在恩科文字上根本做不了。

Qwen 3 的例外:一个有趣的发现

在所有分词器中,Qwen 3 对恩科文字的表现是个例外。其他分词器对恩科文字的溢价都是 8-9×,Qwen 3 把它降到了相对较低的水平。原因很简单:Qwen 3 的训练语料中包含了较多非洲和亚洲非主流文字的数据。

这说明分词器的偏见是可以修复的——只要在训练语料中加入足够的非主流文字数据,溢价就能大幅降低。问题不是技术做不到,而是主流分词器厂商没有动力去做——非洲语言的商业市场太小了。

诚实评价

几个需要说明的点:

1. Token fertility 不是唯一成本。论文承认,除了 token 数量,还有模型质量差异(非洲语言上模型本身也更差)、网络延迟差异等因素。实际部署中的不平等比论文测量的更大。 2. 平行语料的翻译质量可能影响测量。如果 FLORES-200+ 的阿姆哈拉语翻译本身有问题(比如翻译过长),会人为抬高 token 数。论文用了 SIB-200 和 MAFAND-MT 做鲁棒性检查,Pearson r=0.9998,说明结果稳定。 3. 20 种语言不能覆盖整个非洲。非洲有 2000+ 种语言,论文测的 20 种已经是主要语言,但长尾语言的情况可能更糟。 4. H4(溢价与模型准确率的相关性)用的是第三方数据,因果关系不能完全确认。高 token 溢价的语言模型表现更差,但这可能是因为训练数据少,而不是 token 化本身导致的。

对行业的启示

这篇论文最大的贡献不是数字本身,而是把一个被忽视的问题摆到了台面上:分词器是 AI 公平性的第一道门槛,而且这道门槛在模型被调用之前就已经筛人了

当前 AI 公平性研究的主流是"让模型输出不歧视",但这篇论文指出:即使模型本身完全无偏见,分词器的 token 分配不均已经造成了结构性歧视。一个非洲用户和英语用户用同一个模型,非洲用户付更多的钱、等更长的时间、得到更短的上下文——这一切发生在模型推理之前。

修复方案很清晰:扩展分词器的文字系统覆盖。Gemma 4 已经证明这条路走得通——它把平均溢价从 3.31× 降到了 2.38×。Qwen 3 在恩科文字上的表现也证明,只要有足够多的训练数据,9× 的溢价可以大幅降低。

问题是动力。主流分词器由商业公司维护,非洲语言的商业市场不足以激励它们投入资源优化。这篇论文的作者(Olaoye Anthony Somide,来自 DataLens Africa Research 和 CipherSense AI Technologies)发布了开源测量工具 afri-fertility,希望推动社区关注这个问题。

当我们在讨论 AI 民主化的时候,不能只讨论模型权重是否开源、API 是否便宜。如果分词器本身就在收"非洲税",那开源和便宜只是英语世界的开源和便宜。

---

论文: The African Language Tax: Quantifying the Cost, Latency, and Context Penalty of Tokenizing African Languages in Frontier LLMs arXiv: https://arxiv.org/abs/2606.24460 HTML: https://arxiv.org/html/2606.24460v1 工具: https://github.com/CipherSenseAI/afri-fertility 作者: Olaoye Anthony Somide(DataLens Africa Research / CipherSense AI Technologies Ltd)

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens