Nllb 200 3.3B Ct2 Int8
N
Nllb 200 3.3B Ct2 Int8
由OpenNMT開發
一個支持超過100種語言和文字系統的多語言處理模型,涵蓋從主流語言到多種方言和少數民族語言
下載量 65
發布時間 : 11/30/2023
模型概述
該模型專注於多語言文本處理,支持包括阿拉伯文、拉丁文、西里爾文、藏文等多種文字系統的語言,適用於翻譯、文本分類和信息提取等任務
模型特點
廣泛的語言覆蓋
支持超過100種語言,包括多種方言和少數民族語言
多文字系統支持
能夠處理阿拉伯文、拉丁文、西里爾文、藏文等多種文字系統
文化適應性
模型考慮了不同語言的文化背景和表達習慣(推斷)
模型能力
多語言文本理解
跨語言信息提取
語言識別
文本分類
機器翻譯基礎支持
使用案例
全球化應用
多語言內容管理
幫助企業管理和分類多語言內容
提高內容管理效率,支持全球業務擴展
本地化服務支持
為本地化服務提供語言基礎支持
降低本地化成本,提高服務質量
學術研究
少數民族語言保護
支持少數民族語言數字化處理和研究
促進語言多樣性保護
🚀 基於Ctranslate2的快速推理模型
本項目通過在CPU或GPU上使用C++進行int8推理,在減少2 - 4倍內存使用的同時加速推理。它是facebook/nllb - 200 - 3.3B的量化版本。
🚀 快速開始
安裝依賴
pip install ctranslate2
檢查點兼容性
本項目的檢查點與 ctranslate2>=3.22.0 兼容:
- 當
device="cuda"
時,使用compute_type=int8_float16
- 當
device="cpu"
時,使用compute_type=int8
模型轉換代碼
本模型於2023 - 12 - 01使用CTranslate2==3.22.0進行轉換,轉換代碼如下:
from ctranslate2.converters import TransformersConverter
TransformersConverter(
"facebook/nllb-200-3.3B",
activation_scales=None,
copy_files=['tokenizer.json', 'generation_config.json', 'README.md', 'special_tokens_map.json', 'tokenizer_config.json', '.gitattributes'],
load_as_float16=True,
revision=None,
low_cpu_mem_usage=True,
trust_remote_code=True,
).convert(
output_dir=str(tmp_dir),
vmap = None,
quantization="int8",
force = True,
)
✨ 主要特性
- 支持語言眾多:支持多種語言,包括ace、acm、acq等約200種語言。
- 推理加速:使用int8推理,在減少內存使用的同時加速推理。
- 兼容性強:檢查點與 ctranslate2>=3.22.0 兼容。
📚 詳細文檔
支持語言列表
ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu
語言詳情
ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn
標籤
- ctranslate2
- int8
- float16
- nllb
- translation
數據集
- flores - 200
評估指標
- bleu
- spbleu
- chrf++
推理設置
推理功能已關閉(inference: false)
🔧 技術細節
模型評估
NLLB - 200模型使用了機器翻譯社區廣泛採用的BLEU、spBLEU和chrF++指標進行評估。此外,還使用XSTS協議進行了人工評估,並測量了生成翻譯的毒性。
訓練數據
- 使用了來自各種來源的平行多語言數據進行模型訓練。具體的訓練算法、數據以及處理高資源和低資源語言數據不平衡的策略在論文中有詳細描述。
- 還使用了從Common Crawl構建的單語數據。
倫理考量
- 本項目在技術開發中採取了反思性方法,以確保優先考慮人類用戶並儘量減少可能轉移給他們的風險。
- 由於選擇的許多語言是低資源語言,特別是非洲語言,高質量的翻譯雖然可以改善這些社區的教育和信息獲取,但也可能使數字素養較低的群體更容易受到錯誤信息或網絡詐騙的影響。
- 訓練數據是從網絡上各種公開可用的來源挖掘的,儘管進行了大量的數據清理,但可能仍未完全消除個人可識別信息。
- 儘管盡力優化翻譯質量,但模型產生的誤譯仍可能存在,這可能會對依賴這些翻譯做出重要決策的人產生不利影響。
注意事項和建議
- 模型僅在Wikimedia領域進行了測試,對NLLB - MD支持的其他領域的研究有限。
- 支持的語言可能存在模型未涵蓋的變體,用戶應進行適當評估。
碳足跡詳情
二氧化碳(CO2e)估計值在論文的第8.8節中報告。
📄 許可證
本項目採用CC - BY - NC - 4.0許可證,這只是一個量化版本,許可證條件與原始huggingface倉庫相同。
原始模型描述
本部分內容複製自 https://huggingface.co/facebook/nllb - 200 - 3.3B
模型用途
- 主要用途:NLLB - 200是一個機器翻譯模型,主要用於機器翻譯研究,特別是低資源語言的翻譯研究。它允許在200種語言之間進行單句翻譯。使用該模型的信息可以在Fairseq代碼倉庫中找到,同時還有訓練代碼以及評估和訓練數據的參考。
- 主要用戶:主要用戶是研究人員和機器翻譯研究社區。
- 不適用場景:NLLB - 200是一個研究模型,不用於生產部署。它是在通用領域文本數據上訓練的,不適合用於特定領域的文本,如醫學領域或法律領域。該模型也不用於文檔翻譯。由於模型訓練時輸入長度不超過512個標記,因此翻譯較長序列可能會導致質量下降。NLLB - 200的翻譯不能用作認證翻譯。
模型指標
這裡是該特定檢查點的指標。模型性能通過BLEU、spBLEU和chrF++等指標進行衡量。
論文引用
NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022
問題反饋
關於該模型的問題或評論,請發送至:https://github.com/facebookresearch/fairseq/issues
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98