🚀 NLLB-200
NLLB-200是一款强大的机器翻译模型,它聚焦于机器翻译研究,尤其是针对低资源语言。该模型支持200种语言的单句翻译,为翻译研究领域带来了新的可能。
🔍 模型信息
属性 |
详情 |
基础模型 |
facebook/nllb-200-distilled-600M |
支持语言 |
ace、acm、acq等共200种语言 |
语言详情 |
ace_Arab, ace_Latn, acm_Arab等详细信息 |
任务类型 |
翻译 |
标签 |
nllb |
许可证 |
cc-by-nc-4.0 |
数据集 |
flores-200 |
评估指标 |
bleu、spbleu、chrf++ |
推理 |
false |
🚀 快速开始
此为NLLB-200蒸馏600M变体的模型卡片。你可以通过此链接查看该特定检查点的指标。
✨ 主要特性
- 多语言支持:支持200种语言的单句翻译,为不同语言之间的交流提供便利。
- 研究导向:主要用于机器翻译研究,特别是低资源语言的研究。
📚 详细文档
预期用途
- 主要用途:NLLB-200是一个机器翻译模型,主要用于机器翻译研究,特别是针对低资源语言。它支持200种语言之间的单句翻译。关于如何使用该模型的信息,可以在Fairseq代码库中找到,同时还有训练代码以及评估和训练数据的参考。
- 主要用户:主要用户是研究人员和机器翻译研究社区。
- 超出范围的用例:NLLB-200是一个研究模型,未发布用于生产部署。它在通用领域文本数据上进行训练,不适合用于特定领域的文本,如医学领域或法律领域。该模型也不用于文档翻译。由于模型训练时输入长度不超过512个标记,因此翻译较长序列可能会导致质量下降。NLLB-200的翻译不能用作认证翻译。
评估指标
- 模型性能指标:NLLB-200模型使用了机器翻译社区广泛采用的BLEU、spBLEU和chrF++指标进行评估。此外,还使用XSTS协议进行了人工评估,并测量了生成翻译的毒性。
评估数据
- 数据集:Flores-200数据集在论文第4节中有描述。
- 动机:使用Flores-200是因为它能对NLLB-200中的语言提供全面的评估覆盖。
- 预处理:使用SentencePiece对句子分割后的原始文本数据进行预处理。SentencePiece模型与NLLB-200一起发布。
训练数据
- 使用了来自各种来源的平行多语言数据来训练模型。论文第5节详细报告了数据选择和构建过程。还使用了从Common Crawl构建的单语数据,第5.2节提供了更多详细信息。
伦理考量
- 在这项工作中,我们在技术开发中采取了反思性方法,以确保优先考虑人类用户,并尽量减少可能转移给他们的风险。虽然在整篇文章中都反思了伦理考量,但这里还有一些额外的要点需要强调。例如,本研究选择的许多语言是低资源语言,尤其侧重于非洲语言。虽然高质量的翻译可以改善这些社区的教育和信息获取,但这种获取也可能使数字素养较低的群体更容易受到错误信息或网络诈骗的影响。如果不良行为者将我们的工作用于恶意活动,就可能出现后一种情况,我们将其视为意外使用的一个例子。关于数据获取,用于模型开发的训练数据是从网络上各种公开可用的来源挖掘的。尽管我们在数据清理方面投入了大量精力,但可能无法完全消除个人可识别信息。最后,尽管我们尽最大努力优化翻译质量,但模型产生的误译可能仍然存在。虽然这种可能性很低,但这可能会对那些依赖这些翻译做出重要决策的人产生不利影响(特别是与健康和安全相关的决策)。
注意事项和建议
- 我们的模型在维基媒体领域进行了测试,但对NLLB-MD支持的其他领域的研究有限。此外,支持的语言可能存在模型未涵盖的变体,用户应进行适当评估。
碳足迹详情
📄 许可证
本模型的许可证为CC-BY-NC。
💡 使用建议
- 由于模型是研究用途,不建议用于生产部署。
- 对于特定领域文本和长序列翻译需谨慎使用。
⚠️ 重要提示
- 模型训练数据可能包含个人可识别信息,尽管已进行清理。
- 模型可能产生误译,依赖翻译做重要决策需谨慎。