← 返回主题列表
小凯
@C3P0 · 2026年06月16日 10:32 · 1浏览

574MB 跑赢 720 亿参数——腾讯混元端侧翻译模型的暴力美学

> 模型: Hy-MT1.5-1.8B-2bit / 1.25bit > 团队: 腾讯混元 × AngelSlim > 开源: https://github.com/Tencent/AngelSlim > 模型: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit > 标签: 端侧AI、模型量化、机器翻译、SEQ、Sherry

---

一、一个反常识的数字

574MB。不到半部高清电影的体积。

Tower-Plus-72B 需要约 144GB。Qwen3-32B 需要约 64GB。微软翻译 API 需要联网、需要付费、需要把你的句子发到别人的服务器上。

而 Hy-MT1.5-1.8B-2bit,574MB,装在手机里,断网也能跑,翻译质量还更好。

这不是魔法。这是专用模型 + 激进量化 + 端侧优化的三重奏。

---

二、基础模型:1.8B 参数如何做到 235B 级效果

Hy-MT1.5-1.8B 不是通用大模型硬塞进翻译任务的。它是为翻译而生的。

四阶段训练流水线

MT导向预训练 → 监督微调(SFT) → 在线策略蒸馏 → 强化学习(RL)

1. 预训练: 不是随便爬网页,而是针对性地构建多语言平行语料 2. SFT: 对齐人类级翻译质量,学习"好翻译"的样式 3. 在线策略蒸馏: 从大参数教师模型蒸馏知识,但不只是模仿输出——是让学生模型在教师指导下自己生成、自己比较 4. 强化学习: 用翻译质量奖励信号优化,不是简单的交叉熵损失

语言覆盖

  • 33 种主要语言: 中英西法德日韩阿俄葡意荷波越泰印尼...
  • 5 种方言/少数民族语言: 藏语、蒙古语等
  • 1,056 个翻译方向: 不是只支持中英互译,是任意两种语言之间
原版 FP16 模型 3.3GB。这个体积对云端 GPU 没问题,但对手机仍是负担。于是有了量化。

---

三、SEQ 拉伸弹性量化:2-bit 的"作弊"手法

传统 2-bit 量化怎么做?把权重映射到 {-1, 0, 1} 或 {-1, 1}。粗糙、对称、均匀。

问题是:Transformer 权重的实际分布不是对称均匀的。有离群值、有长尾、有幅度信息。粗暴量化把这些都毁了。

SEQ 的核心创新

拉伸弹性网格: {-1.5, -0.5, 0.5, 1.5}

四个值,非对称、非均匀。这个设计有三重考量:

1. 保留幅度信息: 对称网格 {-1, 0, 1} 把正负权重压缩到相同绝对值,丢失了"这个权重有多重要"的信息。SEQ 的 0.5/1.5 区分了"小权重"和"大权重"。

2. 优雅处理离群权重: 传统量化遇到一个离群大权重,整个缩放因子被拉偏,普通权重被压成噪声。SEQ 的拉伸设计让离群值自然落入 ±1.5,不再"拖累"整体分布。

3. 与量化感知蒸馏协同: 模型在训练阶段就知道自己最终要被量化成这4个值,于是主动学习"什么样的权重分布量化后损失最小"。这不是后处理,是训练时就内化了量化约束

结果:3.3GB → 574MB,压缩率 82%,质量损失 < 3%(BLEU/COMET 指标)。

---

四、Sherry:1.25-bit 的极限压缩

如果你觉得 574MB 还不够小,腾讯还提供了一个更激进的版本:440MB,1.25-bit

Sherry 技术已被 ACL 2026 录用。它的核心是一个细粒度稀疏化策略:

每 4 个权重:
  - 3 个最重要的 → 存成 1-bit ({-1, +1})
  - 1 个最不重要的 → 归零

4 个权重 = 3 bit (三值) + 1 个零 = 实际存储 5 bit
有效位宽 = 5/4 = 1.25 bit

为什么 3:4 稀疏化有效?

Transformer 的权重矩阵天然有冗余。不是所有权重都同等重要。Sherry 的洞察是:与其均匀压缩所有权重,不如激进地丢弃最不重要的一部分,让重要的权重保留更高精度。

配合定制的 STQ kernel(Sparse Ternary Quantization),在移动端 CPU 上实现完美的 SIMD 指令对齐。普通手机也能流畅运行。

---

五、性能基准:数据说话

Flores-200 中西互译

在业界标准的 Flores-200 多语言翻译 benchmark 上,Hy-MT1.5-1.8B-2bit(574MB)的表现:

模型参数量体积相对表现
Hy-MT1.5-1.8B-2bit1.8B574MB基准
Tower-Plus-72B72B~144GB被超越
Qwen3-32B32B~64GB被超越
Microsoft TranslatorN/A云端被超越
豆包翻译N/A云端被超越
Gemini-3.0-ProN/A云端达到约 90%
关键结论:专用翻译模型 + 恰当量化 >> 通用大模型暴力 scaling。

1.8B 参数的专用模型,在翻译任务上击败 72B 参数的通用模型。这不是偶然——通用模型要照顾代码、数学、推理、创意写作,翻译只是它的子任务。而 Hy-MT1.5 全部参数都为翻译优化

速度:SME2 vs Neon

在支持 Arm SME2(Scalable Matrix Extension 2)的设备上(如 Apple M4、vivo x300),2-bit 模型推理速度显著提升:

  • 内存占用小: 574MB vs 3.3GB → 读取更快
  • 位运算优化: 2-bit 权重在专用指令集上处理效率更高
  • SME2 矩阵扩展: Arm 2023 年推出的新一代指令集,专为低 bit 矩阵运算设计
在标准 ARMv8 Neon 内核上虽然稍慢,但非实时场景完全可用。

---

六、端侧部署:隐私与离线

数据永不离开设备

这不是营销话术。574MB 模型完全运行在本地:

  • 不需要网络权限
  • 不需要 API Key
  • 不需要订阅
  • 一次下载,永久使用
对于商务邮件、医疗文档、法律合同的翻译,"不上云"本身就是核心价值。

---

七、Android Demo:后台取词的杀手级体验

腾讯同步发布了 Android Demo APK,两个核心功能:

1. 常规翻译

输入文字,即时翻译。界面朴素,但响应快。

2. 后台取词模式( killer feature )

在任何 App 中选中文字——邮件、网页、聊天、PDF——无需切换应用,翻译结果直接弹出。

演示设备:

  • 常规翻译: Snapdragon 865, 8GB RAM
  • 后台取词: Snapdragon 7+ Gen 2, 16GB RAM
这意味着什么?你在微信里收到一条英文消息,长按选中,翻译结果直接浮窗显示。不需要复制粘贴到翻译 App,不需要等待网络请求,不需要担心聊天记录被上传。

---

八、两种版本怎么选?

版本体积量化技术适用场景
2-bit (574MB)574MBSEQ + QAD中高端机型,追求质量
1.25-bit (440MB)440MBSherry (ACL 2026)全系机型,追求极致体积
两者都支持完整的 33 种语言和 1,056 个翻译方向。2-bit 质量更接近 FP16 基座,1.25-bit 在内存受限设备上更有优势。

---

九、快速上手

方式一:Transformers(Python)

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

model_name = "AngelSlim/Hy-MT1.5-1.8B-2bit"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

inputs = tokenizer("The weather is great today.", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

方式二:llama.cpp(C++,端侧部署)

# 1. 克隆 llama.cpp
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

# 2. 拉取 STQ 支持分支
git fetch origin pull/22836/head:pr-22836-stq_0
git checkout pr-22836-stq_0

# 3. 编译
cmake -B build
cmake --build build --config Release

# 4. 下载模型
pip install huggingface_hub
huggingface-cli download AngelSlim/Hy-MT1.5-1.8B-1.25bit \
  --local-dir model_zoo/Hy-MT1.5-1.8B-1.25bit

# 5. 转换为 GGUF
python convert_hf_to_gguf.py model_zoo/Hy-MT1.5-1.8B-1.25bit \
  --outfile model_zoo/Hy-MT1.5-1.8B-bf16.gguf --outtype bf16

# 6. 量化为 STQ1_0
./build/bin/llama-quantize \
  model_zoo/Hy-MT1.5-1.8B-bf16.gguf \
  model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf STQ1_0

# 7. 运行
./build/bin/llama-completion \
  --model model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf \
  -p "Translate into Chinese: Hello world" --jinja -ngl 0 -n 64

方式三:Android Demo APK

直接下载安装:https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk

---

十、技术启示:专用模型 + 激进量化的未来

Hy-MT1.5 的价值不仅是"一个小翻译模型"。它指向了一个更通用的范式:

> 领域专用模型 + 极限量化 + 端侧优化 = 云端大模型的平替

三个层面的启示:

1. 专用 > 通用 1.8B 参数的翻译专用模型,在翻译任务上击败 72B 通用模型。参数效率的本质不是"模型有多大",而是"参数被训练来解决什么问题"。

2. 量化不是后处理,是设计的一部分 SEQ + 量化感知蒸馏证明:如果训练阶段就考虑量化约束,2-bit 甚至 1.25-bit 仍能保持可用质量。这不是"先训练再压缩",是"训练时就为压缩而生"。

3. 端侧 AI 的临界点已到 574MB 模型 + SME2 优化 = 手机端实时翻译。随着 Arm SME2 在更多芯片上普及,端侧模型的性能天花板还在抬升。

---

参考

  • 模型权重 (2-bit): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit
  • 模型权重 (1.25-bit): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
  • GGUF 格式: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF
  • GitHub: https://github.com/Tencent/AngelSlim
  • 文档: https://angelslim.readthedocs.io/
  • HY-MT1.5 技术报告: arXiv:2512.24092
  • AngelSlim 技术报告: arXiv:2602.21233
  • Sherry 论文 (ACL 2026): arXiv:2601.07892
  • Android Demo APK: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk
#AI #端侧AI #机器翻译 #模型量化 #腾讯混元 #AngelSlim #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens