574MB 跑赢 720 亿参数——腾讯混元端侧翻译模型的暴力美学
> 模型: Hy-MT1.5-1.8B-2bit / 1.25bit > 团队: 腾讯混元 × AngelSlim > 开源: https://github.com/Tencent/AngelSlim > 模型: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit > 标签: 端侧AI、模型量化、机器翻译、SEQ、Sherry
---
一、一个反常识的数字
574MB。不到半部高清电影的体积。
Tower-Plus-72B 需要约 144GB。Qwen3-32B 需要约 64GB。微软翻译 API 需要联网、需要付费、需要把你的句子发到别人的服务器上。
而 Hy-MT1.5-1.8B-2bit,574MB,装在手机里,断网也能跑,翻译质量还更好。
这不是魔法。这是专用模型 + 激进量化 + 端侧优化的三重奏。
---
二、基础模型:1.8B 参数如何做到 235B 级效果
Hy-MT1.5-1.8B 不是通用大模型硬塞进翻译任务的。它是为翻译而生的。
四阶段训练流水线
MT导向预训练 → 监督微调(SFT) → 在线策略蒸馏 → 强化学习(RL)
1. 预训练: 不是随便爬网页,而是针对性地构建多语言平行语料 2. SFT: 对齐人类级翻译质量,学习"好翻译"的样式 3. 在线策略蒸馏: 从大参数教师模型蒸馏知识,但不只是模仿输出——是让学生模型在教师指导下自己生成、自己比较 4. 强化学习: 用翻译质量奖励信号优化,不是简单的交叉熵损失
语言覆盖
- 33 种主要语言: 中英西法德日韩阿俄葡意荷波越泰印尼...
- 5 种方言/少数民族语言: 藏语、蒙古语等
- 1,056 个翻译方向: 不是只支持中英互译,是任意两种语言之间
---
三、SEQ 拉伸弹性量化:2-bit 的"作弊"手法
传统 2-bit 量化怎么做?把权重映射到 {-1, 0, 1} 或 {-1, 1}。粗糙、对称、均匀。
问题是:Transformer 权重的实际分布不是对称均匀的。有离群值、有长尾、有幅度信息。粗暴量化把这些都毁了。
SEQ 的核心创新
拉伸弹性网格: {-1.5, -0.5, 0.5, 1.5}
四个值,非对称、非均匀。这个设计有三重考量:
1. 保留幅度信息: 对称网格 {-1, 0, 1} 把正负权重压缩到相同绝对值,丢失了"这个权重有多重要"的信息。SEQ 的 0.5/1.5 区分了"小权重"和"大权重"。
2. 优雅处理离群权重: 传统量化遇到一个离群大权重,整个缩放因子被拉偏,普通权重被压成噪声。SEQ 的拉伸设计让离群值自然落入 ±1.5,不再"拖累"整体分布。
3. 与量化感知蒸馏协同: 模型在训练阶段就知道自己最终要被量化成这4个值,于是主动学习"什么样的权重分布量化后损失最小"。这不是后处理,是训练时就内化了量化约束。
结果:3.3GB → 574MB,压缩率 82%,质量损失 < 3%(BLEU/COMET 指标)。
---
四、Sherry:1.25-bit 的极限压缩
如果你觉得 574MB 还不够小,腾讯还提供了一个更激进的版本:440MB,1.25-bit。
Sherry 技术已被 ACL 2026 录用。它的核心是一个细粒度稀疏化策略:
每 4 个权重:
- 3 个最重要的 → 存成 1-bit ({-1, +1})
- 1 个最不重要的 → 归零
4 个权重 = 3 bit (三值) + 1 个零 = 实际存储 5 bit
有效位宽 = 5/4 = 1.25 bit
为什么 3:4 稀疏化有效?
Transformer 的权重矩阵天然有冗余。不是所有权重都同等重要。Sherry 的洞察是:与其均匀压缩所有权重,不如激进地丢弃最不重要的一部分,让重要的权重保留更高精度。
配合定制的 STQ kernel(Sparse Ternary Quantization),在移动端 CPU 上实现完美的 SIMD 指令对齐。普通手机也能流畅运行。
---
五、性能基准:数据说话
Flores-200 中西互译
在业界标准的 Flores-200 多语言翻译 benchmark 上,Hy-MT1.5-1.8B-2bit(574MB)的表现:
| 模型 | 参数量 | 体积 | 相对表现 |
|---|---|---|---|
| Hy-MT1.5-1.8B-2bit | 1.8B | 574MB | 基准 |
| Tower-Plus-72B | 72B | ~144GB | 被超越 |
| Qwen3-32B | 32B | ~64GB | 被超越 |
| Microsoft Translator | N/A | 云端 | 被超越 |
| 豆包翻译 | N/A | 云端 | 被超越 |
| Gemini-3.0-Pro | N/A | 云端 | 达到约 90% |
1.8B 参数的专用模型,在翻译任务上击败 72B 参数的通用模型。这不是偶然——通用模型要照顾代码、数学、推理、创意写作,翻译只是它的子任务。而 Hy-MT1.5 全部参数都为翻译优化。
速度:SME2 vs Neon
在支持 Arm SME2(Scalable Matrix Extension 2)的设备上(如 Apple M4、vivo x300),2-bit 模型推理速度显著提升:
- 内存占用小: 574MB vs 3.3GB → 读取更快
- 位运算优化: 2-bit 权重在专用指令集上处理效率更高
- SME2 矩阵扩展: Arm 2023 年推出的新一代指令集,专为低 bit 矩阵运算设计
---
六、端侧部署:隐私与离线
数据永不离开设备。
这不是营销话术。574MB 模型完全运行在本地:
- 不需要网络权限
- 不需要 API Key
- 不需要订阅
- 一次下载,永久使用
---
七、Android Demo:后台取词的杀手级体验
腾讯同步发布了 Android Demo APK,两个核心功能:
1. 常规翻译
输入文字,即时翻译。界面朴素,但响应快。2. 后台取词模式( killer feature )
在任何 App 中选中文字——邮件、网页、聊天、PDF——无需切换应用,翻译结果直接弹出。演示设备:
- 常规翻译: Snapdragon 865, 8GB RAM
- 后台取词: Snapdragon 7+ Gen 2, 16GB RAM
---
八、两种版本怎么选?
| 版本 | 体积 | 量化技术 | 适用场景 |
|---|---|---|---|
| 2-bit (574MB) | 574MB | SEQ + QAD | 中高端机型,追求质量 |
| 1.25-bit (440MB) | 440MB | Sherry (ACL 2026) | 全系机型,追求极致体积 |
---
九、快速上手
方式一:Transformers(Python)
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model_name = "AngelSlim/Hy-MT1.5-1.8B-2bit"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
inputs = tokenizer("The weather is great today.", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
方式二:llama.cpp(C++,端侧部署)
# 1. 克隆 llama.cpp
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
# 2. 拉取 STQ 支持分支
git fetch origin pull/22836/head:pr-22836-stq_0
git checkout pr-22836-stq_0
# 3. 编译
cmake -B build
cmake --build build --config Release
# 4. 下载模型
pip install huggingface_hub
huggingface-cli download AngelSlim/Hy-MT1.5-1.8B-1.25bit \
--local-dir model_zoo/Hy-MT1.5-1.8B-1.25bit
# 5. 转换为 GGUF
python convert_hf_to_gguf.py model_zoo/Hy-MT1.5-1.8B-1.25bit \
--outfile model_zoo/Hy-MT1.5-1.8B-bf16.gguf --outtype bf16
# 6. 量化为 STQ1_0
./build/bin/llama-quantize \
model_zoo/Hy-MT1.5-1.8B-bf16.gguf \
model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf STQ1_0
# 7. 运行
./build/bin/llama-completion \
--model model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf \
-p "Translate into Chinese: Hello world" --jinja -ngl 0 -n 64
方式三:Android Demo APK
直接下载安装:https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk
---
十、技术启示:专用模型 + 激进量化的未来
Hy-MT1.5 的价值不仅是"一个小翻译模型"。它指向了一个更通用的范式:
> 领域专用模型 + 极限量化 + 端侧优化 = 云端大模型的平替
三个层面的启示:
1. 专用 > 通用 1.8B 参数的翻译专用模型,在翻译任务上击败 72B 通用模型。参数效率的本质不是"模型有多大",而是"参数被训练来解决什么问题"。
2. 量化不是后处理,是设计的一部分 SEQ + 量化感知蒸馏证明:如果训练阶段就考虑量化约束,2-bit 甚至 1.25-bit 仍能保持可用质量。这不是"先训练再压缩",是"训练时就为压缩而生"。
3. 端侧 AI 的临界点已到 574MB 模型 + SME2 优化 = 手机端实时翻译。随着 Arm SME2 在更多芯片上普及,端侧模型的性能天花板还在抬升。
---
参考
- 模型权重 (2-bit): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit
- 模型权重 (1.25-bit): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
- GGUF 格式: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF
- GitHub: https://github.com/Tencent/AngelSlim
- 文档: https://angelslim.readthedocs.io/
- HY-MT1.5 技术报告: arXiv:2512.24092
- AngelSlim 技术报告: arXiv:2602.21233
- Sherry 论文 (ACL 2026): arXiv:2601.07892
- Android Demo APK: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens