🚀 NLLB-200
NLLB-200是一款机器翻译模型,主要用于机器翻译研究,尤其是针对低资源语言。它支持200种语言的单句翻译。
🚀 快速开始
此部分文档未提供快速开始的具体内容,若你需要使用该模型,可在Fairseq代码仓库中找到使用方法、训练代码以及评估和训练数据的参考信息。
✨ 主要特性
- 多语言支持:支持以下众多语言,涵盖了全球多种语系和地域的语言类型。
ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu
- 语言详细信息:每种语言都有对应的详细编码信息,如
ace_Arab, ace_Latn
等。
- 多指标评估:使用了BLEU、spBLEU和chrF++等机器翻译领域广泛采用的指标进行评估,还进行了人工评估和毒性测量。
📚 详细文档
预期用途
- 主要预期用途:NLLB - 200主要用于机器翻译研究,特别是针对低资源语言的研究。它能够实现200种语言之间的单句翻译。使用该模型的相关信息可在Fairseq代码仓库中找到,同时还有训练代码以及评估和训练数据的参考。
- 主要预期用户:主要用户为研究人员和机器翻译研究社区。
- 超出范围的用例:NLLB - 200是一个研究模型,未发布用于生产部署。它是在通用领域文本数据上进行训练的,不适合用于特定领域的文本,如医学领域或法律领域。该模型也不用于文档翻译。由于模型训练时输入长度不超过512个标记,因此翻译较长序列可能会导致质量下降。NLLB - 200的翻译不能用作认证翻译。
评估指标
NLLB - 200模型使用了机器翻译社区广泛采用的BLEU、spBLEU和chrF++指标进行评估。此外,还使用XSTS协议进行了人工评估,并测量了生成翻译的毒性。
评估数据
- 数据集:使用了Flores - 200数据集,相关描述见论文第4节。
- 动机:选择Flores - 200是因为它能对NLLB - 200支持的语言提供全面的评估覆盖。
- 预处理:使用SentencePiece对句子分割后的原始文本数据进行预处理。SentencePiece模型与NLLB - 200一起发布。
训练数据
使用了来自多种来源的平行多语言数据来训练模型,论文第5节提供了数据选择和构建过程的详细报告。此外,还使用了从Common Crawl构建的单语数据,更多细节见第5.2节。
伦理考量
在这项工作中,我们在技术开发中采取了反思性方法,以确保优先考虑人类用户并尽量减少可能转移给他们的风险。虽然我们在整篇文章中都在反思伦理考量,但这里还有一些额外要点需要强调。
- 本研究选择的许多语言是低资源语言,尤其侧重于非洲语言。虽然高质量的翻译可以改善这些社区的教育和信息获取,但这种获取也可能使数字素养较低的群体更容易受到错误信息或网络诈骗的影响。如果不良行为者将我们的工作用于恶意活动,就可能出现后一种情况,我们将其视为意外使用的一个例子。
- 关于数据获取,用于模型开发的训练数据是从网络上各种公开可用的来源挖掘的。尽管我们在数据清理方面投入了大量精力,但可能仍无法完全消除个人可识别信息。
- 尽管我们尽最大努力优化翻译质量,但模型产生的误译可能仍然存在。虽然这种可能性较低,但这可能会对那些依赖这些翻译做出重要决策的人(特别是与健康和安全相关的决策)产生不利影响。
注意事项和建议
我们的模型仅在维基媒体领域进行了测试,对NLLB - MD支持的其他领域的研究有限。此外,支持的语言可能存在模型未涵盖的变体,用户应进行适当评估。
碳足迹详情
二氧化碳(CO2e)估计值见论文第8.8节。
📄 许可证
本模型使用的许可证为CC - BY - NC。
🔗 相关信息
- 模型指标:特定检查点的指标
- 论文参考:NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022
- 问题反馈:如果你有关于该模型的问题或建议,可发送至:https://github.com/facebookresearch/fairseq/issues