574MB 跑赢 720 亿参数——腾讯混元端侧翻译模型的暴力美学

> 模型: Hy-MT1.5-1.8B-2bit / 1.25bit > 团队: 腾讯混元 × AngelSlim > 开源: https://github.com/Tencent/AngelSlim > 模型: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit > 标签: 端侧AI、模型量化、机器翻译、SEQ、Sherry

---

一、一个反常识的数字

574MB。不到半部高清电影的体积。

Tower-Plus-72B 需要约 144GB。Qwen3-32B 需要约 64GB。微软翻译 API 需要联网、需要付费、需要把你的句子发到别人的服务器上。

而 Hy-MT1.5-1.8B-2bit，574MB，装在手机里，断网也能跑，翻译质量还更好。

这不是魔法。这是专用模型 + 激进量化 + 端侧优化的三重奏。

---

二、基础模型：1.8B 参数如何做到 235B 级效果

Hy-MT1.5-1.8B 不是通用大模型硬塞进翻译任务的。它是为翻译而生的。

四阶段训练流水线

MT导向预训练 → 监督微调(SFT) → 在线策略蒸馏 → 强化学习(RL)

1. 预训练: 不是随便爬网页，而是针对性地构建多语言平行语料 2. SFT: 对齐人类级翻译质量，学习"好翻译"的样式 3. 在线策略蒸馏: 从大参数教师模型蒸馏知识，但不只是模仿输出——是让学生模型在教师指导下自己生成、自己比较 4. 强化学习: 用翻译质量奖励信号优化，不是简单的交叉熵损失

语言覆盖

33 种主要语言: 中英西法德日韩阿俄葡意荷波越泰印尼...
5 种方言/少数民族语言: 藏语、蒙古语等
1,056 个翻译方向: 不是只支持中英互译，是任意两种语言之间

原版 FP16 模型 3.3GB。这个体积对云端 GPU 没问题，但对手机仍是负担。于是有了量化。

---

三、SEQ 拉伸弹性量化：2-bit 的"作弊"手法

传统 2-bit 量化怎么做？把权重映射到 {-1, 0, 1} 或 {-1, 1}。粗糙、对称、均匀。

问题是：Transformer 权重的实际分布不是对称均匀的。有离群值、有长尾、有幅度信息。粗暴量化把这些都毁了。

SEQ 的核心创新

拉伸弹性网格: {-1.5, -0.5, 0.5, 1.5}

四个值，非对称、非均匀。这个设计有三重考量：

1. 保留幅度信息: 对称网格 {-1, 0, 1} 把正负权重压缩到相同绝对值，丢失了"这个权重有多重要"的信息。SEQ 的 0.5/1.5 区分了"小权重"和"大权重"。

2. 优雅处理离群权重: 传统量化遇到一个离群大权重，整个缩放因子被拉偏，普通权重被压成噪声。SEQ 的拉伸设计让离群值自然落入 ±1.5，不再"拖累"整体分布。

3. 与量化感知蒸馏协同: 模型在训练阶段就知道自己最终要被量化成这4个值，于是主动学习"什么样的权重分布量化后损失最小"。这不是后处理，是训练时就内化了量化约束。

结果：3.3GB → 574MB，压缩率 82%，质量损失 < 3%（BLEU/COMET 指标）。

---

四、Sherry：1.25-bit 的极限压缩

如果你觉得 574MB 还不够小，腾讯还提供了一个更激进的版本：440MB，1.25-bit。

Sherry 技术已被 ACL 2026 录用。它的核心是一个细粒度稀疏化策略：

每 4 个权重：
  - 3 个最重要的 → 存成 1-bit ({-1, +1})
  - 1 个最不重要的 → 归零

4 个权重 = 3 bit (三值) + 1 个零 = 实际存储 5 bit
有效位宽 = 5/4 = 1.25 bit

为什么 3:4 稀疏化有效？

Transformer 的权重矩阵天然有冗余。不是所有权重都同等重要。Sherry 的洞察是：与其均匀压缩所有权重，不如激进地丢弃最不重要的一部分，让重要的权重保留更高精度。

配合定制的 STQ kernel（Sparse Ternary Quantization），在移动端 CPU 上实现完美的 SIMD 指令对齐。普通手机也能流畅运行。

---

五、性能基准：数据说话

Flores-200 中西互译

在业界标准的 Flores-200 多语言翻译 benchmark 上，Hy-MT1.5-1.8B-2bit（574MB）的表现：

模型	参数量	体积	相对表现
Hy-MT1.5-1.8B-2bit	1.8B	574MB	基准
Tower-Plus-72B	72B	~144GB	被超越
Qwen3-32B	32B	~64GB	被超越
Microsoft Translator	N/A	云端	被超越
豆包翻译	N/A	云端	被超越
Gemini-3.0-Pro	N/A	云端	达到约 90%

关键结论：专用翻译模型 + 恰当量化 >> 通用大模型暴力 scaling。

1.8B 参数的专用模型，在翻译任务上击败 72B 参数的通用模型。这不是偶然——通用模型要照顾代码、数学、推理、创意写作，翻译只是它的子任务。而 Hy-MT1.5 全部参数都为翻译优化。

速度：SME2 vs Neon

在支持 Arm SME2（Scalable Matrix Extension 2）的设备上（如 Apple M4、vivo x300），2-bit 模型推理速度显著提升：

内存占用小: 574MB vs 3.3GB → 读取更快
位运算优化: 2-bit 权重在专用指令集上处理效率更高
SME2 矩阵扩展: Arm 2023 年推出的新一代指令集，专为低 bit 矩阵运算设计

在标准 ARMv8 Neon 内核上虽然稍慢，但非实时场景完全可用。

---

六、端侧部署：隐私与离线

数据永不离开设备。

这不是营销话术。574MB 模型完全运行在本地：

不需要网络权限
不需要 API Key
不需要订阅
一次下载，永久使用

对于商务邮件、医疗文档、法律合同的翻译，"不上云"本身就是核心价值。

---

七、Android Demo：后台取词的杀手级体验

腾讯同步发布了 Android Demo APK，两个核心功能：

1. 常规翻译

输入文字，即时翻译。界面朴素，但响应快。

2. 后台取词模式（ killer feature ）

在任何 App 中选中文字——邮件、网页、聊天、PDF——无需切换应用，翻译结果直接弹出。

演示设备：

常规翻译: Snapdragon 865, 8GB RAM
后台取词: Snapdragon 7+ Gen 2, 16GB RAM

这意味着什么？你在微信里收到一条英文消息，长按选中，翻译结果直接浮窗显示。不需要复制粘贴到翻译 App，不需要等待网络请求，不需要担心聊天记录被上传。

---

八、两种版本怎么选？

版本	体积	量化技术	适用场景
2-bit (574MB)	574MB	SEQ + QAD	中高端机型，追求质量
1.25-bit (440MB)	440MB	Sherry (ACL 2026)	全系机型，追求极致体积

两者都支持完整的 33 种语言和 1,056 个翻译方向。2-bit 质量更接近 FP16 基座，1.25-bit 在内存受限设备上更有优势。

---

九、快速上手

方式一：Transformers（Python）

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

model_name = "AngelSlim/Hy-MT1.5-1.8B-2bit"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

inputs = tokenizer("The weather is great today.", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

方式二：llama.cpp（C++，端侧部署）

# 1. 克隆 llama.cpp
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

# 2. 拉取 STQ 支持分支
git fetch origin pull/22836/head:pr-22836-stq_0
git checkout pr-22836-stq_0

# 3. 编译
cmake -B build
cmake --build build --config Release

# 4. 下载模型
pip install huggingface_hub
huggingface-cli download AngelSlim/Hy-MT1.5-1.8B-1.25bit \
  --local-dir model_zoo/Hy-MT1.5-1.8B-1.25bit

# 5. 转换为 GGUF
python convert_hf_to_gguf.py model_zoo/Hy-MT1.5-1.8B-1.25bit \
  --outfile model_zoo/Hy-MT1.5-1.8B-bf16.gguf --outtype bf16

# 6. 量化为 STQ1_0
./build/bin/llama-quantize \
  model_zoo/Hy-MT1.5-1.8B-bf16.gguf \
  model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf STQ1_0

# 7. 运行
./build/bin/llama-completion \
  --model model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf \
  -p "Translate into Chinese: Hello world" --jinja -ngl 0 -n 64

方式三：Android Demo APK

直接下载安装：https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk

---

十、技术启示：专用模型 + 激进量化的未来

Hy-MT1.5 的价值不仅是"一个小翻译模型"。它指向了一个更通用的范式：

> 领域专用模型 + 极限量化 + 端侧优化 = 云端大模型的平替

三个层面的启示：

1. 专用 > 通用 1.8B 参数的翻译专用模型，在翻译任务上击败 72B 通用模型。参数效率的本质不是"模型有多大"，而是"参数被训练来解决什么问题"。

2. 量化不是后处理，是设计的一部分 SEQ + 量化感知蒸馏证明：如果训练阶段就考虑量化约束，2-bit 甚至 1.25-bit 仍能保持可用质量。这不是"先训练再压缩"，是"训练时就为压缩而生"。

3. 端侧 AI 的临界点已到 574MB 模型 + SME2 优化 = 手机端实时翻译。随着 Arm SME2 在更多芯片上普及，端侧模型的性能天花板还在抬升。

---

参考

模型权重 (2-bit): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit
模型权重 (1.25-bit): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
GGUF 格式: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF
GitHub: https://github.com/Tencent/AngelSlim
文档: https://angelslim.readthedocs.io/
HY-MT1.5 技术报告: arXiv:2512.24092
AngelSlim 技术报告: arXiv:2602.21233
Sherry 论文 (ACL 2026): arXiv:2601.07892
Android Demo APK: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk

#AI #端侧AI #机器翻译 #模型量化 #腾讯混元 #AngelSlim #小凯