Nllb 200 1.3B
N
Nllb 200 1.3B
由facebook開發
支持超過100種語言和文字系統的多語言處理模型,涵蓋全球主要語系和方言變體
下載量 14.03k
發布時間 : 7/8/2022
模型概述
該模型是一個大規模多語言處理系統,能夠處理包括阿拉伯文、拉丁文、西里爾文、天城文等多種文字系統的語言任務,特別關注低資源語言的覆蓋
模型特點
超廣語言覆蓋
支持全球100多種語言和方言,包括許多低資源語言和區域變體
多文字系統支持
同時處理阿拉伯文、拉丁文、西里爾文、天城文、藏文等多種文字系統
方言敏感處理
對阿拉伯語、庫爾德語等語言的方言變體進行專門優化
模型能力
多語言文本理解
跨語言機器翻譯
語言識別與分類
低資源語言處理
方言變體區分
使用案例
全球化應用
多語言客服系統
為跨國企業提供支持多種語言和方言的自動客服解決方案
可同時處理阿拉伯語各變體及非洲多種語言的需求
語言保護
瀕危語言數字化
幫助記錄和處理使用人數較少的語言和方言
支持如桑塔利語等少數民族語言的文本處理
🚀 NLLB - 200
NLLB - 200是一款機器翻譯模型,主要用於機器翻譯研究,尤其是針對低資源語言的研究,能實現200種語言間的單句翻譯。
🚀 快速開始
這是NLLB - 200的13億參數變體的模型卡片。 這裡有該特定檢查點的指標。
✨ 主要特性
- 訓練相關信息:關於訓練算法、參數、公平性約束或其他應用方法及特性的信息。論文中描述了用於訓練NLLB - 200的確切訓練算法、數據以及處理高資源和低資源語言數據不平衡的策略。
- 參考資料:如需更多信息,請參考論文NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022。
- 許可證:CC - BY - NC
- 問題反饋:有關該模型的問題或評論,請發送至:https://github.com/facebookresearch/fairseq/issues
📚 詳細文檔
預期用途
- 主要用途:NLLB - 200是一個機器翻譯模型,主要用於機器翻譯研究,特別是針對低資源語言的研究。它支持200種語言之間的單句翻譯。有關如何使用該模型的信息可以在Fairseq代碼倉庫中找到,同時還有訓練代碼以及評估和訓練數據的參考資料。
- 主要用戶:主要用戶是研究人員和機器翻譯研究社區。
- 非預期用例:NLLB - 200是一個研究模型,未發佈用於生產部署。NLLB - 200是在通用領域文本數據上進行訓練的,不適合用於特定領域的文本,如醫學領域或法律領域。該模型不用於文檔翻譯。模型訓練時輸入長度不超過512個標記,因此翻譯較長序列可能會導致質量下降。NLLB - 200的翻譯不能用作認證翻譯。
評估指標
- 模型性能衡量:NLLB - 200模型使用了機器翻譯社區廣泛採用的BLEU、spBLEU和chrF++指標進行評估。此外,我們還使用XSTS協議進行了人工評估,並測量了生成翻譯的毒性。
評估數據
- 數據集:Flores - 200數據集在第4節中進行了描述。
- 選擇動機:我們使用Flores - 200是因為它能對NLLB - 200中的語言提供全面的評估覆蓋。
- 預處理:使用SentencePiece對按句子分割的原始文本數據進行預處理。SentencePiece模型與NLLB - 200一起發佈。
訓練數據
- 我們使用了來自各種來源的平行多語言數據來訓練模型。我們在論文的第5節中詳細報告了數據選擇和構建過程。我們還使用了從Common Crawl構建的單語數據。我們在第5.2節中提供了更多細節。
倫理考量
- 在這項工作中,我們在技術開發中採取了反思性的方法,以確保我們優先考慮人類用戶,並儘量減少可能轉移給他們的風險。雖然我們在整篇文章中都在反思我們的倫理考量,但這裡有一些額外的要點需要強調。一方面,本研究選擇的許多語言是低資源語言,尤其側重於非洲語言。雖然高質量的翻譯可以改善這些社區的教育和信息獲取,但這種獲取也可能使數字素養較低的群體更容易受到錯誤信息或網絡詐騙的影響。如果不良行為者將我們的工作用於惡意活動,就可能出現後一種情況,我們認為這是一種非預期使用的例子。關於數據獲取,用於模型開發的訓練數據是從網絡上各種公開可用的來源挖掘的。雖然我們在數據清理方面投入了大量精力,但個人可識別信息可能無法完全消除。最後,儘管我們盡了最大努力優化翻譯質量,但模型產生的誤譯可能仍然存在。雖然這種可能性很低,但這可能會對那些依賴這些翻譯做出重要決策的人產生不利影響(特別是與健康和安全相關的決策)。
注意事項和建議
- 我們的模型已經在維基媒體領域進行了測試,但對NLLB - MD支持的其他領域的研究有限。此外,支持的語言可能存在我們的模型未涵蓋的變體。用戶應進行適當的評估。
碳足跡詳情
- 二氧化碳(CO2e)估計值在第8.8節中報告。
📄 許可證
本模型使用的許可證為CC - BY - NC - 4.0。
📋 語言支持列表
以下是該模型支持的語言列表:
ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu
📋 語言詳細信息
ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn
📋 其他信息表格
屬性 | 詳情 |
---|---|
標籤 | nllb, translation |
數據集 | flores - 200 |
評估指標 | bleu, spbleu, chrf++ |
推理功能 | 否 |
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98