有什么不一样
市面上开源翻译模型不少,Meta 有 NLLB,Google 有 M2M-100,但 Hy-MT2 有几个点让我觉得不太一样。
首先是价格档位拉得很开。三个版本:
- Hy-MT2-1.8B — 18亿参数,轻量级,边缘设备能用
- Hy-MT2-7B — 70亿参数,精度更好,复杂翻译任务的主力
- Hy-MT2-30B-A3B — 300亿参数的 MoE 架构,但每个 token 只激活30亿参数
MoE 用在翻译模型上不算常见。你得到的是大模型的质量,但推理成本接近小模型,这个取舍挺聪明的。
33种语言,覆盖面挺全
主流语种都有,还照顾了不少小语种:
中文、英语、法语、西语、日语、韩语、俄语、阿拉伯语、泰语、意大利语、德语、越南语、印尼语、印地语、藏语、蒙古语、维吾尔语、粤语……
从欧洲到东南亚,再到中国周边语言,覆盖面算扎实。尤其是那些低资源语言,估计是腾讯自己的业务场景推着他们做的。
七种翻译模式,有几个真有用
常规翻译模型基本就是"你输入,我输出"。Hy-MT2 搞了七种模式:
- 基础翻译 — 就是常规翻译。
- 术语翻译 — 你可以自己指定术语表。比如规定"AI 一律翻译成人工智能",模型会照着来。
- 风格翻译 — 正式、文学、口语化,你说了算。
- 个性化翻译 — 给模型一些偏好指令,比如"用简洁的措辞"。
- 定界符保留 — 保留原文里的特定符号格式。
- 结构化数据翻译 — JSON、YAML、XML 这类结构,只翻译人眼看的文本,结构不动。
- 上下文翻译 — 提供背景信息帮模型消歧。
第七条我觉得最实用。翻译"bank"的时候,告诉模型上下文是"finance"还是"river",出来的是两个完全不同的词。这个在真实场景里太常见了。
跑起来难不难
模型在 Hugging Face 上都挂着,搜 tencent/Hy-MT2-1.8B 或者 tencent/Hy-MT2-7B 就行。需要 transformers 5.6.0+。
硬件门槛不高:
- 1.8B 版本大概 4GB 显存就够了
- 7B 版本大概 16GB 显存
- 30B MoE 版本大概 24GB 显存
社区里也有人封装了 Gradio 界面,搜 Tencent-HY-MT2-Pinokio 能找到。装好打开浏览器就能用,省事。
我的看法
如果只是偶尔翻几句话,ChatGPT 或者 Deepl 完全够,没必要折腾这些。
但如果你有批量翻译的需求,或者需要控制术语一致性,又或者要处理结构化数据里的多语言内容,Hy-MT2 值得认真考虑。开源的另一个好处是可以本地部署,数据不出网,隐私方面踏实很多。
推荐从 7B 版本开始试——在质量和资源消耗之间有个不错的平衡。如果你的显卡够好,30B MoE 版本的质量确实高了一截。反正从 HuggingFace 下载试又不花钱,试试看又不亏。