🚀 NLLB-200
NLLB-200是一款強大的機器翻譯模型,它聚焦於機器翻譯研究,尤其是針對低資源語言。該模型支持200種語言的單句翻譯,為翻譯研究領域帶來了新的可能。
🔍 模型信息
屬性 |
詳情 |
基礎模型 |
facebook/nllb-200-distilled-600M |
支持語言 |
ace、acm、acq等共200種語言 |
語言詳情 |
ace_Arab, ace_Latn, acm_Arab等詳細信息 |
任務類型 |
翻譯 |
標籤 |
nllb |
許可證 |
cc-by-nc-4.0 |
數據集 |
flores-200 |
評估指標 |
bleu、spbleu、chrf++ |
推理 |
false |
🚀 快速開始
此為NLLB-200蒸餾600M變體的模型卡片。你可以通過此鏈接查看該特定檢查點的指標。
✨ 主要特性
- 多語言支持:支持200種語言的單句翻譯,為不同語言之間的交流提供便利。
- 研究導向:主要用於機器翻譯研究,特別是低資源語言的研究。
📚 詳細文檔
預期用途
- 主要用途:NLLB-200是一個機器翻譯模型,主要用於機器翻譯研究,特別是針對低資源語言。它支持200種語言之間的單句翻譯。關於如何使用該模型的信息,可以在Fairseq代碼庫中找到,同時還有訓練代碼以及評估和訓練數據的參考。
- 主要用戶:主要用戶是研究人員和機器翻譯研究社區。
- 超出範圍的用例:NLLB-200是一個研究模型,未發佈用於生產部署。它在通用領域文本數據上進行訓練,不適合用於特定領域的文本,如醫學領域或法律領域。該模型也不用於文檔翻譯。由於模型訓練時輸入長度不超過512個標記,因此翻譯較長序列可能會導致質量下降。NLLB-200的翻譯不能用作認證翻譯。
評估指標
- 模型性能指標:NLLB-200模型使用了機器翻譯社區廣泛採用的BLEU、spBLEU和chrF++指標進行評估。此外,還使用XSTS協議進行了人工評估,並測量了生成翻譯的毒性。
評估數據
- 數據集:Flores-200數據集在論文第4節中有描述。
- 動機:使用Flores-200是因為它能對NLLB-200中的語言提供全面的評估覆蓋。
- 預處理:使用SentencePiece對句子分割後的原始文本數據進行預處理。SentencePiece模型與NLLB-200一起發佈。
訓練數據
- 使用了來自各種來源的平行多語言數據來訓練模型。論文第5節詳細報告了數據選擇和構建過程。還使用了從Common Crawl構建的單語數據,第5.2節提供了更多詳細信息。
倫理考量
- 在這項工作中,我們在技術開發中採取了反思性方法,以確保優先考慮人類用戶,並儘量減少可能轉移給他們的風險。雖然在整篇文章中都反思了倫理考量,但這裡還有一些額外的要點需要強調。例如,本研究選擇的許多語言是低資源語言,尤其側重於非洲語言。雖然高質量的翻譯可以改善這些社區的教育和信息獲取,但這種獲取也可能使數字素養較低的群體更容易受到錯誤信息或網絡詐騙的影響。如果不良行為者將我們的工作用於惡意活動,就可能出現後一種情況,我們將其視為意外使用的一個例子。關於數據獲取,用於模型開發的訓練數據是從網絡上各種公開可用的來源挖掘的。儘管我們在數據清理方面投入了大量精力,但可能無法完全消除個人可識別信息。最後,儘管我們盡最大努力優化翻譯質量,但模型產生的誤譯可能仍然存在。雖然這種可能性很低,但這可能會對那些依賴這些翻譯做出重要決策的人產生不利影響(特別是與健康和安全相關的決策)。
注意事項和建議
- 我們的模型在維基媒體領域進行了測試,但對NLLB-MD支持的其他領域的研究有限。此外,支持的語言可能存在模型未涵蓋的變體,用戶應進行適當評估。
碳足跡詳情
📄 許可證
本模型的許可證為CC-BY-NC。
💡 使用建議
- 由於模型是研究用途,不建議用於生產部署。
- 對於特定領域文本和長序列翻譯需謹慎使用。
⚠️ 重要提示
- 模型訓練數據可能包含個人可識別信息,儘管已進行清理。
- 模型可能產生誤譯,依賴翻譯做重要決策需謹慎。