Nllb 200 3.3B Ct2 Int8
N
Nllb 200 3.3B Ct2 Int8
由 OpenNMT 开发
一个支持超过100种语言和文字系统的多语言处理模型,涵盖从主流语言到多种方言和少数民族语言
下载量 65
发布时间 : 11/30/2023
模型简介
该模型专注于多语言文本处理,支持包括阿拉伯文、拉丁文、西里尔文、藏文等多种文字系统的语言,适用于翻译、文本分类和信息提取等任务
模型特点
广泛的语言覆盖
支持超过100种语言,包括多种方言和少数民族语言
多文字系统支持
能够处理阿拉伯文、拉丁文、西里尔文、藏文等多种文字系统
文化适应性
模型考虑了不同语言的文化背景和表达习惯(推断)
模型能力
多语言文本理解
跨语言信息提取
语言识别
文本分类
机器翻译基础支持
使用案例
全球化应用
多语言内容管理
帮助企业管理和分类多语言内容
提高内容管理效率,支持全球业务扩展
本地化服务支持
为本地化服务提供语言基础支持
降低本地化成本,提高服务质量
学术研究
少数民族语言保护
支持少数民族语言数字化处理和研究
促进语言多样性保护
🚀 基于Ctranslate2的快速推理模型
本项目通过在CPU或GPU上使用C++进行int8推理,在减少2 - 4倍内存使用的同时加速推理。它是facebook/nllb - 200 - 3.3B的量化版本。
🚀 快速开始
安装依赖
pip install ctranslate2
检查点兼容性
本项目的检查点与 ctranslate2>=3.22.0 兼容:
- 当
device="cuda"
时,使用compute_type=int8_float16
- 当
device="cpu"
时,使用compute_type=int8
模型转换代码
本模型于2023 - 12 - 01使用CTranslate2==3.22.0进行转换,转换代码如下:
from ctranslate2.converters import TransformersConverter
TransformersConverter(
"facebook/nllb-200-3.3B",
activation_scales=None,
copy_files=['tokenizer.json', 'generation_config.json', 'README.md', 'special_tokens_map.json', 'tokenizer_config.json', '.gitattributes'],
load_as_float16=True,
revision=None,
low_cpu_mem_usage=True,
trust_remote_code=True,
).convert(
output_dir=str(tmp_dir),
vmap = None,
quantization="int8",
force = True,
)
✨ 主要特性
- 支持语言众多:支持多种语言,包括ace、acm、acq等约200种语言。
- 推理加速:使用int8推理,在减少内存使用的同时加速推理。
- 兼容性强:检查点与 ctranslate2>=3.22.0 兼容。
📚 详细文档
支持语言列表
ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu
语言详情
ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn
标签
- ctranslate2
- int8
- float16
- nllb
- translation
数据集
- flores - 200
评估指标
- bleu
- spbleu
- chrf++
推理设置
推理功能已关闭(inference: false)
🔧 技术细节
模型评估
NLLB - 200模型使用了机器翻译社区广泛采用的BLEU、spBLEU和chrF++指标进行评估。此外,还使用XSTS协议进行了人工评估,并测量了生成翻译的毒性。
训练数据
- 使用了来自各种来源的平行多语言数据进行模型训练。具体的训练算法、数据以及处理高资源和低资源语言数据不平衡的策略在论文中有详细描述。
- 还使用了从Common Crawl构建的单语数据。
伦理考量
- 本项目在技术开发中采取了反思性方法,以确保优先考虑人类用户并尽量减少可能转移给他们的风险。
- 由于选择的许多语言是低资源语言,特别是非洲语言,高质量的翻译虽然可以改善这些社区的教育和信息获取,但也可能使数字素养较低的群体更容易受到错误信息或网络诈骗的影响。
- 训练数据是从网络上各种公开可用的来源挖掘的,尽管进行了大量的数据清理,但可能仍未完全消除个人可识别信息。
- 尽管尽力优化翻译质量,但模型产生的误译仍可能存在,这可能会对依赖这些翻译做出重要决策的人产生不利影响。
注意事项和建议
- 模型仅在Wikimedia领域进行了测试,对NLLB - MD支持的其他领域的研究有限。
- 支持的语言可能存在模型未涵盖的变体,用户应进行适当评估。
碳足迹详情
二氧化碳(CO2e)估计值在论文的第8.8节中报告。
📄 许可证
本项目采用CC - BY - NC - 4.0许可证,这只是一个量化版本,许可证条件与原始huggingface仓库相同。
原始模型描述
本部分内容复制自 https://huggingface.co/facebook/nllb - 200 - 3.3B
模型用途
- 主要用途:NLLB - 200是一个机器翻译模型,主要用于机器翻译研究,特别是低资源语言的翻译研究。它允许在200种语言之间进行单句翻译。使用该模型的信息可以在Fairseq代码仓库中找到,同时还有训练代码以及评估和训练数据的参考。
- 主要用户:主要用户是研究人员和机器翻译研究社区。
- 不适用场景:NLLB - 200是一个研究模型,不用于生产部署。它是在通用领域文本数据上训练的,不适合用于特定领域的文本,如医学领域或法律领域。该模型也不用于文档翻译。由于模型训练时输入长度不超过512个标记,因此翻译较长序列可能会导致质量下降。NLLB - 200的翻译不能用作认证翻译。
模型指标
这里是该特定检查点的指标。模型性能通过BLEU、spBLEU和chrF++等指标进行衡量。
论文引用
NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022
问题反馈
关于该模型的问题或评论,请发送至:https://github.com/facebookresearch/fairseq/issues
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98