Nllb 200 Distilled 1.3B Ct2 Int8
NLLB-200 Distilled 1.3B是Meta開發的神經機器翻譯模型,支持200種語言之間的翻譯,使用CTranslate2進行高效推理。
下載量 101
發布時間 : 11/30/2023
模型概述
這是一個基於No Language Left Behind (NLLB)項目的蒸餾版本翻譯模型,專注於高效的多語言翻譯,特別優化了內存使用和推理速度。
模型特點
多語言支持
支持200種語言之間的翻譯,涵蓋全球大多數主要語言和方言
高效推理
使用CTranslate2實現int8量化,減少內存使用2-4倍同時保持推理速度
優化部署
支持在CPU和GPU上高效運行,適合生產環境部署
模型能力
文本翻譯
多語言翻譯
低資源語言翻譯
使用案例
全球化應用
多語言內容本地化
為全球化應用提供多語言內容翻譯
支持200種語言的互譯
研究應用
低資源語言研究
為語言學研究和低資源語言保護提供翻譯支持
🚀 基於Ctranslate2的快速推理模型
本項目藉助C++在CPU或GPU上進行int8推理,在加速推理的同時,可將內存使用量降低2 - 4倍。它是 facebook/nllb - 200 - distilled - 1.3B 的量化版本。
🚀 快速開始
pip install ctranslate2
此檢查點與 ctranslate2>=3.22.0 兼容:
- 當
device="cuda"
時,使用compute_type=int8_float16
- 當
device="cpu"
時,使用compute_type=int8
本模型於2023年11月30日使用 CTranslate2==3.22.0 進行轉換,轉換代碼如下:
from ctranslate2.converters import TransformersConverter
TransformersConverter(
"facebook/nllb-200-distilled-1.3B",
activation_scales=None,
copy_files=['tokenizer.json', 'generation_config.json', 'README.md', 'special_tokens_map.json', 'tokenizer_config.json', '.gitattributes'],
load_as_float16=True,
revision=None,
low_cpu_mem_usage=True,
trust_remote_code=True,
).convert(
output_dir=str(tmp_dir),
vmap = None,
quantization="int8",
force = True,
)
✨ 主要特性
- 多語言支持:支持眾多語言,包括但不限於 ace、acm、acq、aeb 等。
- 快速推理:利用Ctranslate2的int8推理,在CPU或GPU上加速推理並降低內存使用。
- 量化版本:是 facebook/nllb - 200 - distilled - 1.3B 的量化版本。
支持語言列表
ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu
語言詳情
ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn
標籤
- ctranslate2
- int8
- float16
- nllb
- translation
數據集
- flores - 200
評估指標
- bleu
- spbleu
- chrf++
推理設置
推理功能已關閉(inference: false)
📄 許可證
本項目採用 "cc - by - nc - 4.0" 許可證。此為量化版本,許可證條件與原始Hugging Face倉庫一致。
📚 詳細文檔
原始模型描述
NLLB - 200
這是NLLB - 200蒸餾13億參數變體的模型卡片。你可以查看該特定檢查點的 評估指標。
- 訓練相關信息:論文中詳細描述了用於訓練NLLB - 200的具體訓練算法、數據以及處理高資源和低資源語言數據不平衡的策略。
- 參考資料:NLLB團隊等人的論文《No Language Left Behind: Scaling Human - Centered Machine Translation》,發表於Arxiv,2022年。
- 許可證:CC - BY - NC
- 問題反饋:可前往 此處 提交關於該模型的問題或建議。
預期用途
- 主要用途:NLLB - 200是一個機器翻譯模型,主要用於機器翻譯研究,尤其適用於低資源語言。它支持200種語言的單句翻譯。使用該模型的相關信息可在Fairseq代碼倉庫中找到,同時還包含訓練代碼以及評估和訓練數據的參考信息。
- 主要用戶:主要面向研究人員和機器翻譯研究社區。
- 不適用場景:NLLB - 200是一個研究模型,不適合用於生產部署。它基於通用領域文本數據進行訓練,不適合處理特定領域的文本,如醫學或法律領域。該模型也不適合用於文檔翻譯。由於模型訓練時輸入長度不超過512個標記,翻譯較長序列可能會導致質量下降。此外,NLLB - 200的翻譯結果不能作為認證翻譯使用。
評估指標
- 模型性能評估:NLLB - 200模型使用了機器翻譯社區廣泛採用的BLEU、spBLEU和chrF++指標進行評估。此外,還通過XSTS協議進行了人工評估,並測量了生成翻譯結果的毒性。
評估數據
- 數據集:使用了Flores - 200數據集,相關描述見論文第4節。
- 選擇動機:Flores - 200能夠全面覆蓋NLLB - 200支持的語言,因此被選用。
- 預處理:使用SentencePiece對按句子分割的原始文本數據進行預處理。SentencePiece模型與NLLB - 200一同發佈。
訓練數據
模型訓練使用了來自多種來源的平行多語言數據,論文第5節詳細報告了數據選擇和構建過程。此外,還使用了從Common Crawl構建的單語數據,更多細節見論文第5.2節。
倫理考量
在本研究中,我們採取了反思性的技術開發方法,以確保優先考慮人類用戶,並儘量減少可能轉移給他們的風險。儘管在整篇文章中都對倫理問題進行了反思,但仍需強調以下幾點:
- 本研究選擇的許多語言是低資源語言,尤其側重於非洲語言。雖然高質量的翻譯可以改善這些社區的教育和信息獲取,但也可能使數字素養較低的群體更容易受到錯誤信息或網絡詐騙的影響。如果不良行為者將我們的工作用於惡意活動,就可能出現後一種情況,這被視為一種非預期使用的示例。
- 在數據獲取方面,用於模型開發的訓練數據是從網絡上各種公開可用的來源挖掘而來的。儘管我們在數據清理方面投入了大量精力,但可能仍無法完全消除個人可識別信息。
- 儘管我們盡力優化翻譯質量,但模型仍可能產生誤譯。雖然這種可能性較低,但這可能會對依賴這些翻譯做出重要決策的人產生不利影響(特別是在涉及健康和安全的情況下)。
注意事項和建議
我們的模型僅在維基媒體領域進行了測試,對NLLB - MD支持的其他領域的研究有限。此外,支持的語言可能存在模型未涵蓋的變體,用戶應進行適當評估。
碳排放詳情
二氧化碳(CO2e)排放量估計見論文第8.8節。
M2m100 418M
MIT
M2M100是一個多語言編碼器-解碼器模型,支持100種語言的9900個翻譯方向
機器翻譯 支持多種語言
M
facebook
1.6M
299
Opus Mt Fr En
Apache-2.0
基於Transformer的法語到英語神經機器翻譯模型,由Helsinki-NLP團隊開發,採用OPUS多語數據集訓練。
機器翻譯 支持多種語言
O
Helsinki-NLP
1.2M
44
Opus Mt Ar En
Apache-2.0
基於OPUS數據訓練的阿拉伯語到英語的機器翻譯模型,採用transformer-align架構
機器翻譯 支持多種語言
O
Helsinki-NLP
579.41k
42
M2m100 1.2B
MIT
M2M100是一個支持100種語言的多語言機器翻譯模型,可直接在9900個翻譯方向之間進行翻譯。
機器翻譯 支持多種語言
M
facebook
501.82k
167
Indictrans2 Indic En 1B
MIT
支持25種印度語言與英語互譯的1.1B參數規模機器翻譯模型,由AI4Bharat項目開發
機器翻譯
Transformers 支持多種語言

I
ai4bharat
473.63k
14
Opus Mt En Zh
Apache-2.0
基於Transformer架構的英漢多方言翻譯模型,支持英語到13種漢語變體的翻譯任務
機器翻譯 支持多種語言
O
Helsinki-NLP
442.08k
367
Opus Mt Zh En
由赫爾辛基大學開發的基於OPUS語料庫的中文到英語機器翻譯模型
機器翻譯 支持多種語言
O
Helsinki-NLP
441.24k
505
Mbart Large 50 Many To Many Mmt
基於mBART-large-50微調的多語言機器翻譯模型,支持50種語言間的互譯
機器翻譯 支持多種語言
M
facebook
404.66k
357
Opus Mt De En
Apache-2.0
opus-mt-de-en 是一個基於 transformer-align 架構的德語到英語的機器翻譯模型,由 Helsinki-NLP 團隊開發。
機器翻譯 支持多種語言
O
Helsinki-NLP
404.33k
44
Opus Mt Es En
Apache-2.0
這是一個基於Transformer架構的西班牙語到英語的機器翻譯模型,由Helsinki-NLP團隊開發。
機器翻譯
Transformers 支持多種語言

O
Helsinki-NLP
385.40k
71
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98