Hy-MT1.5-1.8B-1.25bit - 腾讯混元开源的手机端离线翻译模型

2026-04-30阅读 0热度 0

腾讯混元

Hy-MT1.5-1.8B-1.25bit是什么

简单来说，Hy-MT1.5-1.8B-1.25bit是腾讯混元团队交出的一个“小而美”的答案：一款能在你手机里离线运行的顶级翻译模型。它脱胎于拥有18亿参数的混元翻译大模型Hy-MT1.5-1.8B，但经过一项名为“Sherry稀疏三值量化”的创新技术“瘦身”后，体积被压缩到了惊人的440MB。别看它小，本事可不小——支持33种语言和5种方言/民汉，覆盖1056个翻译方向，最关键的是，其翻译质量在多项测试中已经超越了谷歌翻译等主流商业系统，而且这一切都在你手机本地完成，完全不需要网络。

Hy-MT1.5-1.8B-1.25bit的主要功能

33种语言离线互译：从全球通用的中、英、法、日，到阿拉伯语、俄语，再到藏语、蒙古语等少数民族语言，总计1056个翻译方向，基本覆盖了主流沟通场景。
手机端本地运行：模型下载后，翻译工作全部在手机本地完成。这意味着零流量消耗，也意味着在飞机、地铁或信号盲区，翻译服务依然在线。
后台取词翻译：配套的演示应用提供了一个非常实用的“后台取词模式”。当你在浏览网页或查看邮件时，只需长按选中文本，就能通过悬浮窗直接看到翻译结果，无需切换应用。
文本实时翻译：在应用内输入或粘贴文本，点击翻译按钮即可快速得到结果，并支持一键复制译文，方便后续使用。
多语言方向切换：支持任意两种语言之间的双向翻译切换，操作直观，满足灵活多变的翻译需求。

Hy-MT1.5-1.8B-1.25bit的技术原理

基础模型：它的“底子”是腾讯混元翻译大模型Hy-MT1.5-1.8B。这个模型经历了一套相当扎实的训练流程：从通用预训练开始，再到机器翻译定向预训练、监督微调、在线蒸馏，最后用强化学习进行收尾优化，可谓千锤百炼。
Sherry 稀疏三值量化（1.25-bit）：这是实现极致压缩的核心。它采用了一种细粒度的稀疏策略，简单理解就是：每4个参数中，有3个被压缩到仅用1个比特存储（取值仅为-1或1），剩下的1个则直接置零。这样一来，平均每个参数只占用1.25比特，存储效率极高。
STQ 专用内核：光有压缩算法还不够，还得有高效的“执行引擎”。腾讯专门为手机CPU设计了这套稀疏三值量化推理内核，它能完美适配手机的SIMD指令集，让解码过程又快又省电。
量化感知训练（QAT）：为了避免“过度减肥”导致精度严重下降，团队在训练阶段就引入了量化感知。通过分布对齐和偏移优化等技术，提前让模型适应低比特的量化环境，从而最大程度保留性能。
GRPO 强化学习：为了追求更地道的翻译，团队采用了Group Relative Policy Optimization算法。它结合了准确性、流畅度、一致性、文化适配性、可读性等多个维度的评分标准来优化模型，让译文不止于“对”，更追求“好”。

如何使用Hy-MT1.5-1.8B-1.25bit

下载安装：目前可以通过魔搭社区或HuggingFace平台下载演示应用的APK文件进行安装体验。
启动加载：首次打开应用，它会自动加载那个440MB的模型文件。加载完成后，所有功能就准备就绪了。
文本翻译：在主界面输入或粘贴文本，点击“Translate”按钮即可获得离线翻译结果。底部的语言栏可以让你自由切换翻译的源语言和目标语言。
后台取词：这个功能很实用。在其他应用里，只要长按选中需要翻译的文字，在弹出菜单中选择“离线翻译”，一个悬浮窗就会立刻显示翻译结果，全程无需跳转应用，体验流畅。

Hy-MT1.5-1.8B-1.25bit的关键信息和使用要求

发布方：腾讯混元团队
模型参数：1.8B（原始版本）
量化精度：1.25-bit（采用Sherry稀疏三值量化技术）
模型体积：440MB（压缩后）
支持平台：目前提供安卓演示版，iOS正式版将在后续支持
开源协议：模型权重、相关代码及技术报告均已全面开源
系统：安卓手机（演示版暂不支持iOS）
内存：建议8GB及以上（官方演示设备为骁龙865/888/7+Gen2，配备8GB或16GB内存）
存储：需要预留约500MB空间用于下载和存储模型文件
网络：首次下载模型时需要联网，之后所有翻译操作均可完全离线进行

Hy-MT1.5-1.8B-1.25bit的核心优势

极致轻量化：440MB的体积是什么概念？其原始FP16版本大小约为3.3GB，压缩比达到了惊人的7.5倍。这使得它可以轻松常驻在普通手机的存储中，几乎不构成负担。
翻译质量高：这才是关键。在Flores-200、WMT25等权威基准测试中，其1.8B的原始模型已经超越了谷歌、百度、微软等商业翻译API，甚至优于Tower-Plus-72B、Qwen3-32B等参数量大得多的开源模型。而1.25bit量化版本在保持极小体积的同时，将质量损失控制在了可接受的范围内。
推理速度快：得益于专用的STQ内核优化，它在手机端的推理效率极高。实测数据显示，在骁龙888手机上，其翻译速度比FP16版本快了约8倍（1.9秒对比58.2秒），真正实现了“即输即译”。
全离线零隐私：所有翻译处理均在本地完成，用户数据无需上传至任何服务器。这不仅彻底消除了隐私泄露的担忧，也意味着没有订阅费用，一次下载，永久使用。
硬件适配友好：1.25bit的量化方案对手机处理器常见的SIMD指令集非常友好，这意味着它能够在全系安卓机型上流畅运行，普及门槛大大降低。

Hy-MT1.5-1.8B-1.25bit的项目地址

HuggingFace模型库：可以在此获取模型权重及相关资源。
arXiv技术论文：详细的技术原理和实验数据都在这篇论文中，供深入研究参考。

Hy-MT1.5-1.8B-1.25bit的同类竞品对比

对比维度	Hy-MT1.5-1.8B-1.25bit	Tower-Plus-72B	谷歌翻译 (Google Translate API)
产品定位	端侧离线翻译大模型	开源翻译专用大模型	商业云端翻译服务
发布方	腾讯混元	Unbabel / 社区	Google
模型体积	440 MB	145 GB	云端部署（无本地体积）
参数量	1.8B	72B	未公开
运行方式	手机本地离线运行	需服务器 / A100 等高性能 GPU	云端 API 调用
联网需求	❌ 完全不需要	✅ 需部署在服务器	✅ 必须联网
支持语言	33 种 + 5 种方言/民汉	多语言	100+ 种语言
Flores-200 (ZH↔XX)	82.2	79.7	69.3
Flores-200 (EN↔XX)	87.4	86.2	77.0
WMT25	57.0	41.0	38.9
Minority↔Mandarin	59.1	35.4	33.4
推理速度	极快（骁龙888仅 1.9 秒）	慢（72B 大模型推理成本高）	依赖网络延迟（通常 1–3 秒）

Hy-MT1.5-1.8B-1.25bit的应用场景

境外出行：在飞机上、偏远山区或信号不稳定的境外地区，随时翻译菜单、路牌或对话内容，解决“失联”状态下的沟通痛点。
商务办公：离线处理涉外的邮件、合同或文档，确保敏感的商业信息完全在本地处理，杜绝任何数据上传带来的潜在风险。
少数民族沟通：支持藏语、蒙古语、维吾尔语等与汉语的互译，为边疆地区的日常交流、政务办理提供便利的技术工具。
学术研究：在本地阅读和翻译外文文献、论文，利用取词功能随时查证，既能提升效率，又能严格保护学术隐私与知识产权。
日常阅读：离线状态下浏览外文新闻网站、社交媒体或电子书，无需消耗手机流量，即可获得高质量的即时译文，拓展信息边界。