Nllb 200 1.3B
N
Nllb 200 1.3B
由 facebook 开发
支持超过100种语言和文字系统的多语言处理模型,涵盖全球主要语系和方言变体
下载量 14.03k
发布时间 : 7/8/2022
模型简介
该模型是一个大规模多语言处理系统,能够处理包括阿拉伯文、拉丁文、西里尔文、天城文等多种文字系统的语言任务,特别关注低资源语言的覆盖
模型特点
超广语言覆盖
支持全球100多种语言和方言,包括许多低资源语言和区域变体
多文字系统支持
同时处理阿拉伯文、拉丁文、西里尔文、天城文、藏文等多种文字系统
方言敏感处理
对阿拉伯语、库尔德语等语言的方言变体进行专门优化
模型能力
多语言文本理解
跨语言机器翻译
语言识别与分类
低资源语言处理
方言变体区分
使用案例
全球化应用
多语言客服系统
为跨国企业提供支持多种语言和方言的自动客服解决方案
可同时处理阿拉伯语各变体及非洲多种语言的需求
语言保护
濒危语言数字化
帮助记录和处理使用人数较少的语言和方言
支持如桑塔利语等少数民族语言的文本处理
🚀 NLLB - 200
NLLB - 200是一款机器翻译模型,主要用于机器翻译研究,尤其是针对低资源语言的研究,能实现200种语言间的单句翻译。
🚀 快速开始
这是NLLB - 200的13亿参数变体的模型卡片。 这里有该特定检查点的指标。
✨ 主要特性
- 训练相关信息:关于训练算法、参数、公平性约束或其他应用方法及特性的信息。论文中描述了用于训练NLLB - 200的确切训练算法、数据以及处理高资源和低资源语言数据不平衡的策略。
- 参考资料:如需更多信息,请参考论文NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022。
- 许可证:CC - BY - NC
- 问题反馈:有关该模型的问题或评论,请发送至:https://github.com/facebookresearch/fairseq/issues
📚 详细文档
预期用途
- 主要用途:NLLB - 200是一个机器翻译模型,主要用于机器翻译研究,特别是针对低资源语言的研究。它支持200种语言之间的单句翻译。有关如何使用该模型的信息可以在Fairseq代码仓库中找到,同时还有训练代码以及评估和训练数据的参考资料。
- 主要用户:主要用户是研究人员和机器翻译研究社区。
- 非预期用例:NLLB - 200是一个研究模型,未发布用于生产部署。NLLB - 200是在通用领域文本数据上进行训练的,不适合用于特定领域的文本,如医学领域或法律领域。该模型不用于文档翻译。模型训练时输入长度不超过512个标记,因此翻译较长序列可能会导致质量下降。NLLB - 200的翻译不能用作认证翻译。
评估指标
- 模型性能衡量:NLLB - 200模型使用了机器翻译社区广泛采用的BLEU、spBLEU和chrF++指标进行评估。此外,我们还使用XSTS协议进行了人工评估,并测量了生成翻译的毒性。
评估数据
- 数据集:Flores - 200数据集在第4节中进行了描述。
- 选择动机:我们使用Flores - 200是因为它能对NLLB - 200中的语言提供全面的评估覆盖。
- 预处理:使用SentencePiece对按句子分割的原始文本数据进行预处理。SentencePiece模型与NLLB - 200一起发布。
训练数据
- 我们使用了来自各种来源的平行多语言数据来训练模型。我们在论文的第5节中详细报告了数据选择和构建过程。我们还使用了从Common Crawl构建的单语数据。我们在第5.2节中提供了更多细节。
伦理考量
- 在这项工作中,我们在技术开发中采取了反思性的方法,以确保我们优先考虑人类用户,并尽量减少可能转移给他们的风险。虽然我们在整篇文章中都在反思我们的伦理考量,但这里有一些额外的要点需要强调。一方面,本研究选择的许多语言是低资源语言,尤其侧重于非洲语言。虽然高质量的翻译可以改善这些社区的教育和信息获取,但这种获取也可能使数字素养较低的群体更容易受到错误信息或网络诈骗的影响。如果不良行为者将我们的工作用于恶意活动,就可能出现后一种情况,我们认为这是一种非预期使用的例子。关于数据获取,用于模型开发的训练数据是从网络上各种公开可用的来源挖掘的。虽然我们在数据清理方面投入了大量精力,但个人可识别信息可能无法完全消除。最后,尽管我们尽了最大努力优化翻译质量,但模型产生的误译可能仍然存在。虽然这种可能性很低,但这可能会对那些依赖这些翻译做出重要决策的人产生不利影响(特别是与健康和安全相关的决策)。
注意事项和建议
- 我们的模型已经在维基媒体领域进行了测试,但对NLLB - MD支持的其他领域的研究有限。此外,支持的语言可能存在我们的模型未涵盖的变体。用户应进行适当的评估。
碳足迹详情
- 二氧化碳(CO2e)估计值在第8.8节中报告。
📄 许可证
本模型使用的许可证为CC - BY - NC - 4.0。
📋 语言支持列表
以下是该模型支持的语言列表:
ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu
📋 语言详细信息
ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn
📋 其他信息表格
属性 | 详情 |
---|---|
标签 | nllb, translation |
数据集 | flores - 200 |
评估指标 | bleu, spbleu, chrf++ |
推理功能 | 否 |
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98