NLLB-200开源机器翻译模型 - 免费支持200种语言单句翻译，聚焦低资源语言

首页

Nllb 200 Distilled 600M 8bit

由 Emilio407 开发

NLLB-200是一款强大的机器翻译模型，支持200种语言的单句翻译，特别针对低资源语言研究。

机器翻译

Safetensors

#低资源语言翻译 #200种语言支持 #研究专用模型

下载量 156

发布时间 : 2/22/2025

模型简介

NLLB-200是一个专注于机器翻译研究的模型，特别针对低资源语言，支持200种语言之间的单句翻译。

模型特点

多语言支持

支持200种语言的单句翻译，为不同语言之间的交流提供便利。

低资源语言优化

特别针对低资源语言进行优化，提升翻译质量。

研究导向

主要用于机器翻译研究，特别是低资源语言的研究。

模型能力

单句翻译

多语言翻译

低资源语言翻译

使用案例

机器翻译研究

低资源语言翻译研究

用于研究低资源语言的翻译质量和优化方法。

提升低资源语言的翻译质量

多语言翻译研究

用于研究多语言之间的翻译效果和模型表现。

支持200种语言的翻译

🚀 NLLB-200

NLLB-200是一款强大的机器翻译模型，它聚焦于机器翻译研究，尤其是针对低资源语言。该模型支持200种语言的单句翻译，为翻译研究领域带来了新的可能。

🔍 模型信息

属性	详情
基础模型	facebook/nllb-200-distilled-600M
支持语言	ace、acm、acq等共200种语言
语言详情	ace_Arab, ace_Latn, acm_Arab等详细信息
任务类型	翻译
标签	nllb
许可证	cc-by-nc-4.0
数据集	flores-200
评估指标	bleu、spbleu、chrf++
推理	false

🚀 快速开始

此为NLLB-200蒸馏600M变体的模型卡片。你可以通过此链接查看该特定检查点的指标。

✨ 主要特性

多语言支持：支持200种语言的单句翻译，为不同语言之间的交流提供便利。
研究导向：主要用于机器翻译研究，特别是低资源语言的研究。

📚 详细文档

预期用途

主要用途：NLLB-200是一个机器翻译模型，主要用于机器翻译研究，特别是针对低资源语言。它支持200种语言之间的单句翻译。关于如何使用该模型的信息，可以在Fairseq代码库中找到，同时还有训练代码以及评估和训练数据的参考。
主要用户：主要用户是研究人员和机器翻译研究社区。
超出范围的用例：NLLB-200是一个研究模型，未发布用于生产部署。它在通用领域文本数据上进行训练，不适合用于特定领域的文本，如医学领域或法律领域。该模型也不用于文档翻译。由于模型训练时输入长度不超过512个标记，因此翻译较长序列可能会导致质量下降。NLLB-200的翻译不能用作认证翻译。

评估指标

模型性能指标：NLLB-200模型使用了机器翻译社区广泛采用的BLEU、spBLEU和chrF++指标进行评估。此外，还使用XSTS协议进行了人工评估，并测量了生成翻译的毒性。

评估数据

数据集：Flores-200数据集在论文第4节中有描述。
动机：使用Flores-200是因为它能对NLLB-200中的语言提供全面的评估覆盖。
预处理：使用SentencePiece对句子分割后的原始文本数据进行预处理。SentencePiece模型与NLLB-200一起发布。

训练数据

使用了来自各种来源的平行多语言数据来训练模型。论文第5节详细报告了数据选择和构建过程。还使用了从Common Crawl构建的单语数据，第5.2节提供了更多详细信息。

伦理考量

在这项工作中，我们在技术开发中采取了反思性方法，以确保优先考虑人类用户，并尽量减少可能转移给他们的风险。虽然在整篇文章中都反思了伦理考量，但这里还有一些额外的要点需要强调。例如，本研究选择的许多语言是低资源语言，尤其侧重于非洲语言。虽然高质量的翻译可以改善这些社区的教育和信息获取，但这种获取也可能使数字素养较低的群体更容易受到错误信息或网络诈骗的影响。如果不良行为者将我们的工作用于恶意活动，就可能出现后一种情况，我们将其视为意外使用的一个例子。关于数据获取，用于模型开发的训练数据是从网络上各种公开可用的来源挖掘的。尽管我们在数据清理方面投入了大量精力，但可能无法完全消除个人可识别信息。最后，尽管我们尽最大努力优化翻译质量，但模型产生的误译可能仍然存在。虽然这种可能性很低，但这可能会对那些依赖这些翻译做出重要决策的人产生不利影响（特别是与健康和安全相关的决策）。