Nllb 200 Ko Gec 3.3B
N
Nllb 200 Ko Gec 3.3B
由sionic-ai開發
支持超過100種語言和文字系統的多語言文本處理模型,涵蓋多種阿拉伯語方言和少數民族語言
下載量 180
發布時間 : 6/27/2024
模型概述
該模型專注於多語言文本處理,支持包括阿拉伯語方言、少數民族語言和多種文字系統在內的廣泛語言處理能力
模型特點
廣泛的語言支持
支持超過100種語言和文字系統,包括多種阿拉伯語方言和少數民族語言
多文字系統處理
能夠處理阿拉伯文、拉丁文、西里爾文、天城文等多種文字系統
方言支持
特別包含多種阿拉伯語方言(如埃及阿拉伯語、摩洛哥阿拉伯語等)的處理能力
模型能力
多語言文本處理
文字系統轉換
方言識別
語言檢測
使用案例
機器翻譯
阿拉伯語方言翻譯
在不同阿拉伯語方言之間進行翻譯
少數民族語言處理
處理少數民族語言的文本轉換和翻譯
內容本地化
多語言內容適配
為不同語言和地區的用戶提供本地化內容
🚀 實現韓語語法檢查工具
本項目是 facebook/nllb-200-3.3B 的微調版本,旨在糾正韓語語法錯誤。
所用數據集和預處理方法將盡快更新。
🚀 快速開始
此模型可用於韓語語法錯誤糾正,基於 facebook/nllb-200-3.3B
微調而來。使用方法和訓練代碼可在 Fairseq 代碼倉庫中找到。
✨ 主要特性
- 語言支持:支持多種語言,包括
ace
、acm
、acq
等共 200 種語言。 - 模型用途:主要用於機器翻譯研究,特別是針對低資源語言,可實現 200 種語言間的單句翻譯。
- 評估指標:使用 BLEU、spBLEU 和 chrF++ 等機器翻譯社區廣泛採用的指標進行評估,還進行了人工評估和毒性測量。
📚 詳細文檔
原模型介紹
NLLB - 200
這是 NLLB - 200 的 33 億參數變體的模型卡片。可查看 該檢查點的指標。
- 訓練相關信息:論文中描述了用於訓練 NLLB - 200 的精確訓練算法、數據以及處理高資源和低資源語言數據不平衡的策略。
- 參考資料:NLLB 團隊等人,《No Language Left Behind: Scaling Human - Centered Machine Translation》,Arxiv,2022
- 許可證:CC - BY - NC
- 問題反饋:可在 這裡 提交關於模型的問題或評論。
預期用途
- 主要用途:NLLB - 200 是一個機器翻譯模型,主要用於機器翻譯研究,尤其是低資源語言的研究。它支持 200 種語言的單句翻譯。使用模型的相關信息可在 Fairseq 代碼倉庫中找到,同時還有訓練代碼以及評估和訓練數據的參考資料。
- 主要用戶:主要用戶為研究人員和機器翻譯研究社區。
- 不適用場景:NLLB - 200 是研究模型,不用於生產部署。它基於通用領域文本數據進行訓練,不適用於特定領域文本,如醫學或法律領域。該模型也不用於文檔翻譯。由於模型訓練時輸入長度不超過 512 個標記,翻譯較長序列可能導致質量下降。NLLB - 200 的翻譯不能作為認證翻譯。
評估指標
- 模型性能衡量:NLLB - 200 模型使用 BLEU、spBLEU 和 chrF++ 等機器翻譯社區廣泛採用的指標進行評估。此外,還使用 XSTS 協議進行了人工評估,並測量了生成翻譯的毒性。
評估數據
- 數據集:Flores - 200 數據集在論文第 4 節有描述。
- 選擇動機:使用 Flores - 200 是因為它能對 NLLB - 200 中的語言提供全面的評估覆蓋。
- 預處理:使用 SentencePiece 對句子分割後的原始文本數據進行預處理。SentencePiece 模型與 NLLB - 200 一起發佈。
訓練數據
使用了來自多種來源的平行多語言數據來訓練模型。論文第 5 節詳細報告了數據選擇和構建過程。還使用了從 Common Crawl 構建的單語數據,第 5.2 節有更多詳細信息。
倫理考慮
在這項工作中,採用了反思性的技術開發方法,以確保優先考慮人類用戶並儘量減少可能轉移給他們的風險。雖然在整篇文章中都對倫理考慮進行了反思,但以下是一些需要強調的額外要點:
- 本研究選擇的許多語言是低資源語言,尤其側重於非洲語言。雖然高質量的翻譯可以改善這些社區的教育和信息獲取,但這種獲取也可能使數字素養較低的群體更容易受到錯誤信息或網絡詐騙的影響。如果不良行為者將本研究成果用於惡意活動,就可能出現後一種情況,這被視為意外使用的一個例子。
- 關於數據獲取,用於模型開發的訓練數據是從網絡上各種公開可用的來源挖掘的。儘管在數據清理方面投入了大量精力,但可能無法完全消除個人可識別信息。
- 儘管盡力優化翻譯質量,但模型產生的誤譯仍可能存在。雖然這種可能性較低,但這可能會對依賴這些翻譯做出重要決策的人(特別是與健康和安全相關的決策)產生不利影響。
注意事項和建議
- 模型在維基媒體領域進行了測試,但對 NLLB - MD 支持的其他領域的研究有限。
- 支持的語言可能存在模型未涵蓋的變體,用戶應進行適當評估。
碳足跡詳情
二氧化碳(CO2e)估計在論文第 8.8 節報告。
📄 許可證
本項目採用 cc - by - nc - 4.0
許可證。
🔍 語言信息
支持語言列表
ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu
語言詳細信息
ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn
相關標籤
nllb, translation
數據集
flores - 200
評估指標
bleu, spbleu, chrf++
推理設置
false
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98