Nllb 200 Ko Gec 3.3B
N
Nllb 200 Ko Gec 3.3B
由 sionic-ai 开发
支持超过100种语言和文字系统的多语言文本处理模型,涵盖多种阿拉伯语方言和少数民族语言
下载量 180
发布时间 : 6/27/2024
模型简介
该模型专注于多语言文本处理,支持包括阿拉伯语方言、少数民族语言和多种文字系统在内的广泛语言处理能力
模型特点
广泛的语言支持
支持超过100种语言和文字系统,包括多种阿拉伯语方言和少数民族语言
多文字系统处理
能够处理阿拉伯文、拉丁文、西里尔文、天城文等多种文字系统
方言支持
特别包含多种阿拉伯语方言(如埃及阿拉伯语、摩洛哥阿拉伯语等)的处理能力
模型能力
多语言文本处理
文字系统转换
方言识别
语言检测
使用案例
机器翻译
阿拉伯语方言翻译
在不同阿拉伯语方言之间进行翻译
少数民族语言处理
处理少数民族语言的文本转换和翻译
内容本地化
多语言内容适配
为不同语言和地区的用户提供本地化内容
🚀 实现韩语语法检查工具
本项目是 facebook/nllb-200-3.3B 的微调版本,旨在纠正韩语语法错误。
所用数据集和预处理方法将尽快更新。
🚀 快速开始
此模型可用于韩语语法错误纠正,基于 facebook/nllb-200-3.3B
微调而来。使用方法和训练代码可在 Fairseq 代码仓库中找到。
✨ 主要特性
- 语言支持:支持多种语言,包括
ace
、acm
、acq
等共 200 种语言。 - 模型用途:主要用于机器翻译研究,特别是针对低资源语言,可实现 200 种语言间的单句翻译。
- 评估指标:使用 BLEU、spBLEU 和 chrF++ 等机器翻译社区广泛采用的指标进行评估,还进行了人工评估和毒性测量。
📚 详细文档
原模型介绍
NLLB - 200
这是 NLLB - 200 的 33 亿参数变体的模型卡片。可查看 该检查点的指标。
- 训练相关信息:论文中描述了用于训练 NLLB - 200 的精确训练算法、数据以及处理高资源和低资源语言数据不平衡的策略。
- 参考资料:NLLB 团队等人,《No Language Left Behind: Scaling Human - Centered Machine Translation》,Arxiv,2022
- 许可证:CC - BY - NC
- 问题反馈:可在 这里 提交关于模型的问题或评论。
预期用途
- 主要用途:NLLB - 200 是一个机器翻译模型,主要用于机器翻译研究,尤其是低资源语言的研究。它支持 200 种语言的单句翻译。使用模型的相关信息可在 Fairseq 代码仓库中找到,同时还有训练代码以及评估和训练数据的参考资料。
- 主要用户:主要用户为研究人员和机器翻译研究社区。
- 不适用场景:NLLB - 200 是研究模型,不用于生产部署。它基于通用领域文本数据进行训练,不适用于特定领域文本,如医学或法律领域。该模型也不用于文档翻译。由于模型训练时输入长度不超过 512 个标记,翻译较长序列可能导致质量下降。NLLB - 200 的翻译不能作为认证翻译。
评估指标
- 模型性能衡量:NLLB - 200 模型使用 BLEU、spBLEU 和 chrF++ 等机器翻译社区广泛采用的指标进行评估。此外,还使用 XSTS 协议进行了人工评估,并测量了生成翻译的毒性。
评估数据
- 数据集:Flores - 200 数据集在论文第 4 节有描述。
- 选择动机:使用 Flores - 200 是因为它能对 NLLB - 200 中的语言提供全面的评估覆盖。
- 预处理:使用 SentencePiece 对句子分割后的原始文本数据进行预处理。SentencePiece 模型与 NLLB - 200 一起发布。
训练数据
使用了来自多种来源的平行多语言数据来训练模型。论文第 5 节详细报告了数据选择和构建过程。还使用了从 Common Crawl 构建的单语数据,第 5.2 节有更多详细信息。
伦理考虑
在这项工作中,采用了反思性的技术开发方法,以确保优先考虑人类用户并尽量减少可能转移给他们的风险。虽然在整篇文章中都对伦理考虑进行了反思,但以下是一些需要强调的额外要点:
- 本研究选择的许多语言是低资源语言,尤其侧重于非洲语言。虽然高质量的翻译可以改善这些社区的教育和信息获取,但这种获取也可能使数字素养较低的群体更容易受到错误信息或网络诈骗的影响。如果不良行为者将本研究成果用于恶意活动,就可能出现后一种情况,这被视为意外使用的一个例子。
- 关于数据获取,用于模型开发的训练数据是从网络上各种公开可用的来源挖掘的。尽管在数据清理方面投入了大量精力,但可能无法完全消除个人可识别信息。
- 尽管尽力优化翻译质量,但模型产生的误译仍可能存在。虽然这种可能性较低,但这可能会对依赖这些翻译做出重要决策的人(特别是与健康和安全相关的决策)产生不利影响。
注意事项和建议
- 模型在维基媒体领域进行了测试,但对 NLLB - MD 支持的其他领域的研究有限。
- 支持的语言可能存在模型未涵盖的变体,用户应进行适当评估。
碳足迹详情
二氧化碳(CO2e)估计在论文第 8.8 节报告。
📄 许可证
本项目采用 cc - by - nc - 4.0
许可证。
🔍 语言信息
支持语言列表
ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu
语言详细信息
ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn
相关标签
nllb, translation
数据集
flores - 200
评估指标
bleu, spbleu, chrf++
推理设置
false
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98