🚀 NLLB-200
NLLB-200是一款機器翻譯模型,主要用於機器翻譯研究,尤其是針對低資源語言。它支持200種語言的單句翻譯。
🚀 快速開始
此部分文檔未提供快速開始的具體內容,若你需要使用該模型,可在Fairseq代碼倉庫中找到使用方法、訓練代碼以及評估和訓練數據的參考信息。
✨ 主要特性
- 多語言支持:支持以下眾多語言,涵蓋了全球多種語系和地域的語言類型。
ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu
- 語言詳細信息:每種語言都有對應的詳細編碼信息,如
ace_Arab, ace_Latn
等。
- 多指標評估:使用了BLEU、spBLEU和chrF++等機器翻譯領域廣泛採用的指標進行評估,還進行了人工評估和毒性測量。
📚 詳細文檔
預期用途
- 主要預期用途:NLLB - 200主要用於機器翻譯研究,特別是針對低資源語言的研究。它能夠實現200種語言之間的單句翻譯。使用該模型的相關信息可在Fairseq代碼倉庫中找到,同時還有訓練代碼以及評估和訓練數據的參考。
- 主要預期用戶:主要用戶為研究人員和機器翻譯研究社區。
- 超出範圍的用例:NLLB - 200是一個研究模型,未發佈用於生產部署。它是在通用領域文本數據上進行訓練的,不適合用於特定領域的文本,如醫學領域或法律領域。該模型也不用於文檔翻譯。由於模型訓練時輸入長度不超過512個標記,因此翻譯較長序列可能會導致質量下降。NLLB - 200的翻譯不能用作認證翻譯。
評估指標
NLLB - 200模型使用了機器翻譯社區廣泛採用的BLEU、spBLEU和chrF++指標進行評估。此外,還使用XSTS協議進行了人工評估,並測量了生成翻譯的毒性。
評估數據
- 數據集:使用了Flores - 200數據集,相關描述見論文第4節。
- 動機:選擇Flores - 200是因為它能對NLLB - 200支持的語言提供全面的評估覆蓋。
- 預處理:使用SentencePiece對句子分割後的原始文本數據進行預處理。SentencePiece模型與NLLB - 200一起發佈。
訓練數據
使用了來自多種來源的平行多語言數據來訓練模型,論文第5節提供了數據選擇和構建過程的詳細報告。此外,還使用了從Common Crawl構建的單語數據,更多細節見第5.2節。
倫理考量
在這項工作中,我們在技術開發中採取了反思性方法,以確保優先考慮人類用戶並儘量減少可能轉移給他們的風險。雖然我們在整篇文章中都在反思倫理考量,但這裡還有一些額外要點需要強調。
- 本研究選擇的許多語言是低資源語言,尤其側重於非洲語言。雖然高質量的翻譯可以改善這些社區的教育和信息獲取,但這種獲取也可能使數字素養較低的群體更容易受到錯誤信息或網絡詐騙的影響。如果不良行為者將我們的工作用於惡意活動,就可能出現後一種情況,我們將其視為意外使用的一個例子。
- 關於數據獲取,用於模型開發的訓練數據是從網絡上各種公開可用的來源挖掘的。儘管我們在數據清理方面投入了大量精力,但可能仍無法完全消除個人可識別信息。
- 儘管我們盡最大努力優化翻譯質量,但模型產生的誤譯可能仍然存在。雖然這種可能性較低,但這可能會對那些依賴這些翻譯做出重要決策的人(特別是與健康和安全相關的決策)產生不利影響。
注意事項和建議
我們的模型僅在維基媒體領域進行了測試,對NLLB - MD支持的其他領域的研究有限。此外,支持的語言可能存在模型未涵蓋的變體,用戶應進行適當評估。
碳足跡詳情
二氧化碳(CO2e)估計值見論文第8.8節。
📄 許可證
本模型使用的許可證為CC - BY - NC。
🔗 相關信息
- 模型指標:特定檢查點的指標
- 論文參考:NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022
- 問題反饋:如果你有關於該模型的問題或建議,可發送至:https://github.com/facebookresearch/fairseq/issues