NLLB開源機器翻譯模型 - 支持200種語言，免費搞定翻譯任務

首頁

Nllb

由Narsil開發

NLLB-200蒸餾版600M參數模型，支持200種語言的機器翻譯任務

機器翻譯

Transformers

支持多種語言#200種語言互譯 #低資源語言優化 #蒸餾模型高效推理

下載量 113

發布時間 : 2/10/2023

模型概述

這是一個支持200種語言的機器翻譯模型，是NLLB-200的蒸餾版本，具有600M參數。專注於高質量的多語言翻譯，特別是低資源語言的翻譯。

模型特點

廣泛的語言支持

支持200種語言，包括許多低資源語言

蒸餾模型

600M參數的蒸餾版本，在保持性能的同時減小模型規模

多語言翻譯

支持任意兩種支持語言之間的直接翻譯

低資源語言優化

特別關注低資源語言的翻譯質量

模型能力

文本翻譯

多語言翻譯

低資源語言處理

使用案例

多語言應用

全球化內容翻譯

將內容翻譯成多種語言以服務全球用戶

支持200種語言的互譯

低資源語言保護

為瀕危或低資源語言提供機器翻譯支持

提高低資源語言的翻譯質量

商業應用

跨國企業溝通

幫助企業跨越語言障礙進行內部溝通

🚀 NLLB-200

NLLB-200是一款機器翻譯模型，主要用於機器翻譯研究，特別是針對低資源語言。它支持200種語言的單句翻譯。

這裡是該特定檢查點的指標。

有關訓練算法、參數、公平性約束或其他應用方法及特性的信息。論文中描述了用於訓練NLLB - 200的確切訓練算法、數據以及處理高資源和低資源語言數據不平衡的策略。
更多信息請參考論文：NLLB Team等，《No Language Left Behind: Scaling Human - Centered Machine Translation》，Arxiv，2022
許可證：CC - BY - NC
有關模型的問題或建議反饋地址：https://github.com/facebookresearch/fairseq/issues

🚀 快速開始

語言支持

支持以下語言：

ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu

語言詳細信息：

ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn

示例

widget:
  - src_lang: fr
    tgt_lang: en
    text: "Ceci est un example"
    example_title: FR->EN

✨ 主要特性

多語言支持：支持200種語言的單句翻譯，尤其關注低資源語言。
研究導向：主要用於機器翻譯研究，為相關領域的學術探索提供有力工具。

📚 詳細文檔

預期用途

主要預期用途：NLLB - 200是一款機器翻譯模型，主要用於機器翻譯研究，特別是針對低資源語言。它允許在200種語言之間進行單句翻譯。有關如何使用該模型的信息可以在Fairseq代碼倉庫中找到，同時還有訓練代碼以及評估和訓練數據的參考信息。
主要預期用戶：主要用戶是研究人員和機器翻譯研究社區。
超出範圍的用例：NLLB - 200是一個研究模型，未發佈用於生產部署。NLLB - 200是在通用領域文本數據上進行訓練的，不適合用於特定領域的文本，如醫學領域或法律領域。該模型不用於文檔翻譯。模型訓練時輸入長度不超過512個標記，因此翻譯較長序列可能會導致質量下降。NLLB - 200的翻譯不能用作認證翻譯。

指標

模型性能評估：NLLB - 200模型使用了機器翻譯社區廣泛採用的BLEU、spBLEU和chrF++指標進行評估。此外，我們還使用XSTS協議進行了人工評估，並測量了生成翻譯的毒性。

評估數據

數據集：Flores - 200數據集在第4節中進行了描述。
動機：我們使用Flores - 200是因為它提供了NLLB - 200中所有語言的完整評估覆蓋。
預處理：使用SentencePiece對按句子分割的原始文本數據進行預處理。SentencePiece模型與NLLB - 200一起發佈。

訓練數據

我們使用了來自各種來源的平行多語言數據來訓練模型。我們在論文的第5節中詳細報告了數據選擇和構建過程。我們還使用了從Common Crawl構建的單語數據。更多細節在第5.2節中提供。

倫理考量

在這項工作中，我們在技術開發中採取了反思性的方法，以確保我們優先考慮人類用戶，並儘量減少可能轉移給他們的風險。雖然我們在整篇文章中都在反思我們的倫理考量，但這裡還有一些額外的要點需要強調。一方面，本研究選擇的許多語言是低資源語言，其中非洲語言佔比較大。雖然高質量的翻譯可以改善這些社區的教育和信息獲取，但這種獲取也可能使數字素養較低的群體更容易受到錯誤信息或網絡詐騙的影響。如果不良行為者將我們的工作用於惡意活動，就可能出現後一種情況，我們認為這是一種意外使用的例子。關於數據獲取，用於模型開發的訓練數據是從網絡上各種公開可用的來源挖掘的。儘管我們在數據清理方面投入了大量精力，但個人可識別信息可能無法完全消除。最後，儘管我們盡了最大努力優化翻譯質量，但模型產生的誤譯可能仍然存在。雖然這種可能性很低，但這可能會對那些依賴這些翻譯做出重要決策的人產生不利影響（特別是與健康和安全相關的決策）。