NLLB开源机器翻译模型 - 支持200种语言，免费搞定翻译任务

首页

Nllb

由 Narsil 开发

NLLB-200蒸馏版600M参数模型，支持200种语言的机器翻译任务

机器翻译

Transformers

支持多种语言#200种语言互译 #低资源语言优化 #蒸馏模型高效推理

下载量 113

发布时间 : 2/10/2023

模型简介

这是一个支持200种语言的机器翻译模型，是NLLB-200的蒸馏版本，具有600M参数。专注于高质量的多语言翻译，特别是低资源语言的翻译。

模型特点

广泛的语言支持

支持200种语言，包括许多低资源语言

蒸馏模型

600M参数的蒸馏版本，在保持性能的同时减小模型规模

多语言翻译

支持任意两种支持语言之间的直接翻译

低资源语言优化

特别关注低资源语言的翻译质量

模型能力

文本翻译

多语言翻译

低资源语言处理

使用案例

多语言应用

全球化内容翻译

将内容翻译成多种语言以服务全球用户

支持200种语言的互译

低资源语言保护

为濒危或低资源语言提供机器翻译支持

提高低资源语言的翻译质量

商业应用

跨国企业沟通

帮助企业跨越语言障碍进行内部沟通

🚀 NLLB-200

NLLB-200是一款机器翻译模型，主要用于机器翻译研究，特别是针对低资源语言。它支持200种语言的单句翻译。

这里是该特定检查点的指标。

有关训练算法、参数、公平性约束或其他应用方法及特性的信息。论文中描述了用于训练NLLB - 200的确切训练算法、数据以及处理高资源和低资源语言数据不平衡的策略。
更多信息请参考论文：NLLB Team等，《No Language Left Behind: Scaling Human - Centered Machine Translation》，Arxiv，2022
许可证：CC - BY - NC
有关模型的问题或建议反馈地址：https://github.com/facebookresearch/fairseq/issues

🚀 快速开始

语言支持

支持以下语言：

ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu

语言详细信息：

ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn

示例

widget:
  - src_lang: fr
    tgt_lang: en
    text: "Ceci est un example"
    example_title: FR->EN

✨ 主要特性

多语言支持：支持200种语言的单句翻译，尤其关注低资源语言。
研究导向：主要用于机器翻译研究，为相关领域的学术探索提供有力工具。

📚 详细文档

预期用途

主要预期用途：NLLB - 200是一款机器翻译模型，主要用于机器翻译研究，特别是针对低资源语言。它允许在200种语言之间进行单句翻译。有关如何使用该模型的信息可以在Fairseq代码仓库中找到，同时还有训练代码以及评估和训练数据的参考信息。
主要预期用户：主要用户是研究人员和机器翻译研究社区。
超出范围的用例：NLLB - 200是一个研究模型，未发布用于生产部署。NLLB - 200是在通用领域文本数据上进行训练的，不适合用于特定领域的文本，如医学领域或法律领域。该模型不用于文档翻译。模型训练时输入长度不超过512个标记，因此翻译较长序列可能会导致质量下降。NLLB - 200的翻译不能用作认证翻译。

指标

模型性能评估：NLLB - 200模型使用了机器翻译社区广泛采用的BLEU、spBLEU和chrF++指标进行评估。此外，我们还使用XSTS协议进行了人工评估，并测量了生成翻译的毒性。

评估数据

数据集：Flores - 200数据集在第4节中进行了描述。
动机：我们使用Flores - 200是因为它提供了NLLB - 200中所有语言的完整评估覆盖。
预处理：使用SentencePiece对按句子分割的原始文本数据进行预处理。SentencePiece模型与NLLB - 200一起发布。

训练数据

我们使用了来自各种来源的平行多语言数据来训练模型。我们在论文的第5节中详细报告了数据选择和构建过程。我们还使用了从Common Crawl构建的单语数据。更多细节在第5.2节中提供。

伦理考量

在这项工作中，我们在技术开发中采取了反思性的方法，以确保我们优先考虑人类用户，并尽量减少可能转移给他们的风险。虽然我们在整篇文章中都在反思我们的伦理考量，但这里还有一些额外的要点需要强调。一方面，本研究选择的许多语言是低资源语言，其中非洲语言占比较大。虽然高质量的翻译可以改善这些社区的教育和信息获取，但这种获取也可能使数字素养较低的群体更容易受到错误信息或网络诈骗的影响。如果不良行为者将我们的工作用于恶意活动，就可能出现后一种情况，我们认为这是一种意外使用的例子。关于数据获取，用于模型开发的训练数据是从网络上各种公开可用的来源挖掘的。尽管我们在数据清理方面投入了大量精力，但个人可识别信息可能无法完全消除。最后，尽管我们尽了最大努力优化翻译质量，但模型产生的误译可能仍然存在。虽然这种可能性很低，但这可能会对那些依赖这些翻译做出重要决策的人产生不利影响（特别是与健康和安全相关的决策）。