Nllb 200 Distilled 1.3B Ct2 Int8
NLLB-200 Distilled 1.3B是Meta开发的神经机器翻译模型,支持200种语言之间的翻译,使用CTranslate2进行高效推理。
下载量 101
发布时间 : 11/30/2023
模型简介
这是一个基于No Language Left Behind (NLLB)项目的蒸馏版本翻译模型,专注于高效的多语言翻译,特别优化了内存使用和推理速度。
模型特点
多语言支持
支持200种语言之间的翻译,涵盖全球大多数主要语言和方言
高效推理
使用CTranslate2实现int8量化,减少内存使用2-4倍同时保持推理速度
优化部署
支持在CPU和GPU上高效运行,适合生产环境部署
模型能力
文本翻译
多语言翻译
低资源语言翻译
使用案例
全球化应用
多语言内容本地化
为全球化应用提供多语言内容翻译
支持200种语言的互译
研究应用
低资源语言研究
为语言学研究和低资源语言保护提供翻译支持
🚀 基于Ctranslate2的快速推理模型
本项目借助C++在CPU或GPU上进行int8推理,在加速推理的同时,可将内存使用量降低2 - 4倍。它是 facebook/nllb - 200 - distilled - 1.3B 的量化版本。
🚀 快速开始
pip install ctranslate2
此检查点与 ctranslate2>=3.22.0 兼容:
- 当
device="cuda"
时,使用compute_type=int8_float16
- 当
device="cpu"
时,使用compute_type=int8
本模型于2023年11月30日使用 CTranslate2==3.22.0 进行转换,转换代码如下:
from ctranslate2.converters import TransformersConverter
TransformersConverter(
"facebook/nllb-200-distilled-1.3B",
activation_scales=None,
copy_files=['tokenizer.json', 'generation_config.json', 'README.md', 'special_tokens_map.json', 'tokenizer_config.json', '.gitattributes'],
load_as_float16=True,
revision=None,
low_cpu_mem_usage=True,
trust_remote_code=True,
).convert(
output_dir=str(tmp_dir),
vmap = None,
quantization="int8",
force = True,
)
✨ 主要特性
- 多语言支持:支持众多语言,包括但不限于 ace、acm、acq、aeb 等。
- 快速推理:利用Ctranslate2的int8推理,在CPU或GPU上加速推理并降低内存使用。
- 量化版本:是 facebook/nllb - 200 - distilled - 1.3B 的量化版本。
支持语言列表
ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu
语言详情
ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn
标签
- ctranslate2
- int8
- float16
- nllb
- translation
数据集
- flores - 200
评估指标
- bleu
- spbleu
- chrf++
推理设置
推理功能已关闭(inference: false)
📄 许可证
本项目采用 "cc - by - nc - 4.0" 许可证。此为量化版本,许可证条件与原始Hugging Face仓库一致。
📚 详细文档
原始模型描述
NLLB - 200
这是NLLB - 200蒸馏13亿参数变体的模型卡片。你可以查看该特定检查点的 评估指标。
- 训练相关信息:论文中详细描述了用于训练NLLB - 200的具体训练算法、数据以及处理高资源和低资源语言数据不平衡的策略。
- 参考资料:NLLB团队等人的论文《No Language Left Behind: Scaling Human - Centered Machine Translation》,发表于Arxiv,2022年。
- 许可证:CC - BY - NC
- 问题反馈:可前往 此处 提交关于该模型的问题或建议。
预期用途
- 主要用途:NLLB - 200是一个机器翻译模型,主要用于机器翻译研究,尤其适用于低资源语言。它支持200种语言的单句翻译。使用该模型的相关信息可在Fairseq代码仓库中找到,同时还包含训练代码以及评估和训练数据的参考信息。
- 主要用户:主要面向研究人员和机器翻译研究社区。
- 不适用场景:NLLB - 200是一个研究模型,不适合用于生产部署。它基于通用领域文本数据进行训练,不适合处理特定领域的文本,如医学或法律领域。该模型也不适合用于文档翻译。由于模型训练时输入长度不超过512个标记,翻译较长序列可能会导致质量下降。此外,NLLB - 200的翻译结果不能作为认证翻译使用。
评估指标
- 模型性能评估:NLLB - 200模型使用了机器翻译社区广泛采用的BLEU、spBLEU和chrF++指标进行评估。此外,还通过XSTS协议进行了人工评估,并测量了生成翻译结果的毒性。
评估数据
- 数据集:使用了Flores - 200数据集,相关描述见论文第4节。
- 选择动机:Flores - 200能够全面覆盖NLLB - 200支持的语言,因此被选用。
- 预处理:使用SentencePiece对按句子分割的原始文本数据进行预处理。SentencePiece模型与NLLB - 200一同发布。
训练数据
模型训练使用了来自多种来源的平行多语言数据,论文第5节详细报告了数据选择和构建过程。此外,还使用了从Common Crawl构建的单语数据,更多细节见论文第5.2节。
伦理考量
在本研究中,我们采取了反思性的技术开发方法,以确保优先考虑人类用户,并尽量减少可能转移给他们的风险。尽管在整篇文章中都对伦理问题进行了反思,但仍需强调以下几点:
- 本研究选择的许多语言是低资源语言,尤其侧重于非洲语言。虽然高质量的翻译可以改善这些社区的教育和信息获取,但也可能使数字素养较低的群体更容易受到错误信息或网络诈骗的影响。如果不良行为者将我们的工作用于恶意活动,就可能出现后一种情况,这被视为一种非预期使用的示例。
- 在数据获取方面,用于模型开发的训练数据是从网络上各种公开可用的来源挖掘而来的。尽管我们在数据清理方面投入了大量精力,但可能仍无法完全消除个人可识别信息。
- 尽管我们尽力优化翻译质量,但模型仍可能产生误译。虽然这种可能性较低,但这可能会对依赖这些翻译做出重要决策的人产生不利影响(特别是在涉及健康和安全的情况下)。
注意事项和建议
我们的模型仅在维基媒体领域进行了测试,对NLLB - MD支持的其他领域的研究有限。此外,支持的语言可能存在模型未涵盖的变体,用户应进行适当评估。
碳排放详情
二氧化碳(CO2e)排放量估计见论文第8.8节。
M2m100 418M
MIT
M2M100是一个多语言编码器-解码器模型,支持100种语言的9900个翻译方向
机器翻译 支持多种语言
M
facebook
1.6M
299
Opus Mt Fr En
Apache-2.0
基于Transformer的法语到英语神经机器翻译模型,由Helsinki-NLP团队开发,采用OPUS多语数据集训练。
机器翻译 支持多种语言
O
Helsinki-NLP
1.2M
44
Opus Mt Ar En
Apache-2.0
基于OPUS数据训练的阿拉伯语到英语的机器翻译模型,采用transformer-align架构
机器翻译 支持多种语言
O
Helsinki-NLP
579.41k
42
M2m100 1.2B
MIT
M2M100是一个支持100种语言的多语言机器翻译模型,可直接在9900个翻译方向之间进行翻译。
机器翻译 支持多种语言
M
facebook
501.82k
167
Indictrans2 Indic En 1B
MIT
支持25种印度语言与英语互译的1.1B参数规模机器翻译模型,由AI4Bharat项目开发
机器翻译
Transformers 支持多种语言

I
ai4bharat
473.63k
14
Opus Mt En Zh
Apache-2.0
基于Transformer架构的英汉多方言翻译模型,支持英语到13种汉语变体的翻译任务
机器翻译 支持多种语言
O
Helsinki-NLP
442.08k
367
Opus Mt Zh En
由赫尔辛基大学开发的基于OPUS语料库的中文到英语机器翻译模型
机器翻译 支持多种语言
O
Helsinki-NLP
441.24k
505
Mbart Large 50 Many To Many Mmt
基于mBART-large-50微调的多语言机器翻译模型,支持50种语言间的互译
机器翻译 支持多种语言
M
facebook
404.66k
357
Opus Mt De En
Apache-2.0
opus-mt-de-en 是一个基于 transformer-align 架构的德语到英语的机器翻译模型,由 Helsinki-NLP 团队开发。
机器翻译 支持多种语言
O
Helsinki-NLP
404.33k
44
Opus Mt Es En
Apache-2.0
这是一个基于Transformer架构的西班牙语到英语的机器翻译模型,由Helsinki-NLP团队开发。
机器翻译
Transformers 支持多种语言

O
Helsinki-NLP
385.40k
71
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98