🚀 NLLB-200
NLLB-200是一款機器翻譯模型,旨在推動機器翻譯研究,尤其是針對低資源語言。它能夠實現200種語言之間的單句翻譯。
模型信息
屬性 |
詳情 |
模型類型 |
翻譯模型 |
訓練數據 |
flores-200 |
評估指標 |
BLEU、spBLEU、chrf++ |
許可證 |
CC-BY-NC-4.0 |
支持語言
- ace、acm、acq、aeb、af、ajp、ak、als、am、apc、ar、ars、ary、arz、as、ast、awa、ayr、azb、azj、ba、bm、ban、be、bem、bn、bho、bjn、bo、bs、bug、bg、ca、ceb、cs、cjk、ckb、crh、cy、da、de、dik、dyu、dz、el、en、eo、et、eu、ee、fo、fj、fi、fon、fr、fur、fuv、gaz、gd、ga、gl、gn、gu、ht、ha、he、hi、hne、hr、hu、hy、ig、ilo、id、is、it、jv、ja、kab、kac、kam、kn、ks、ka、kk、kbp、kea、khk、km、ki、rw、ky、kmb、kmr、knc、kg、ko、lo、lij、li、ln、lt、lmo、ltg、lb、lua、lg、luo、lus、lvs、mag、mai、ml、mar、min、mk、mt、mni、mos、mi、my、nl、nn、nb、npi、nso、nus、ny、oc、ory、pag、pa、pap、pbt、pes、plt、pl、pt、prs、quy、ro、rn、ru、sg、sa、sat、scn、shn、si、sk、sl、sm、sn、sd、so、st、es、sc、sr、ss、su、sv、swh、szl、ta、taq、tt、te、tg、tl、th、ti、tpi、tn、ts、tk、tum、tr、tw、tzm、ug、uk、umb、ur、uzn、vec、vi、war、wo、xh、ydd、yo、yue、zh、zsm、zu
語言詳情
ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn
訓練與評估
- 評估指標詳情:可查看該特定檢查點的指標。模型使用了BLEU、spBLEU和chrF++等機器翻譯社區廣泛採用的指標進行評估,此外還通過XSTS協議進行了人工評估,並測量了生成翻譯的毒性。
- 評估數據:使用了Flores-200數據集,該數據集能對NLLB-200支持的語言提供全面的評估覆蓋。原始文本數據經過SentencePiece進行預處理,且SentencePiece模型隨NLLB-200一同發佈。
- 訓練數據:使用了來自多種來源的平行多語言數據進行訓練,論文第5節詳細報告了數據選擇和構建過程。此外,還使用了從Common Crawl構建的單語數據,第5.2節提供了更多詳細信息。
預期用途
- 主要用途:主要用於機器翻譯研究,特別是針對低資源語言的研究。它支持200種語言之間的單句翻譯。使用模型的相關信息可在Fairseq代碼倉庫中找到,同時還有訓練代碼以及評估和訓練數據的參考。
- 主要用戶:主要是研究人員和機器翻譯研究社區。
- 超出範圍的用例:NLLB-200是一個研究模型,未發佈用於生產部署。它基於通用領域文本數據進行訓練,不適用於特定領域的文本,如醫學領域或法律領域,也不用於文檔翻譯。該模型訓練時輸入長度不超過512個標記,因此翻譯較長序列可能會導致質量下降,並且其翻譯結果不能用作認證翻譯。
倫理考量
在這項工作中,我們在技術開發中採取了反思性方法,以確保優先考慮人類用戶,並儘量減少可能轉移給他們的風險。雖然我們在整篇文章中都在反思倫理考量,但這裡有一些額外的要點需要強調。
- 本研究選擇的許多語言是低資源語言,尤其著重於非洲語言。高質量的翻譯可以改善這些社區的教育和信息獲取,但這種獲取也可能使數字素養較低的群體更容易受到錯誤信息或網絡詐騙的影響。如果不良行為者將我們的工作用於惡意活動,就可能出現後一種情況,我們認為這是一種意外使用的例子。
- 在數據獲取方面,用於模型開發的訓練數據是從網絡上各種公開可用的來源挖掘的。儘管我們在數據清理方面投入了大量精力,但個人可識別信息可能無法完全消除。
- 儘管我們盡力優化翻譯質量,但模型產生的誤譯仍可能存在。雖然這種可能性較低,但這可能會對依賴這些翻譯做出重要決策的人產生不利影響(特別是與健康和安全相關的決策)。
注意事項和建議
- 我們的模型僅在維基媒體領域進行了測試,對NLLB-MD支持的其他領域的研究有限。
- 支持的語言可能存在模型未涵蓋的變體,用戶應進行適當評估。
碳排放詳情
二氧化碳(CO2e)估計值在論文第8.8節報告。
相關引用
NLLB Team等,No Language Left Behind: Scaling Human-Centered Machine Translation,Arxiv,2022
問題反饋
有關該模型的問題或建議,請訪問:https://github.com/facebookresearch/fairseq/issues