Zabanshenas Roberta Base Mix
Zabanshenas 是一种基于 Transformer 的解决方案,用于识别书面文档/文本最可能的语言。
下载量 23
发布时间 : 3/2/2022
模型简介
Zabanshenas 是一个波斯语单词,具有两个含义:研究语言学的人和识别书面语言类型的方法。该模型支持超过200种语言的检测。
模型特点
多语言支持
支持超过200种语言的检测,包括许多小众和低资源语言
高准确率
在大多数语言上达到90%以上的F1分数
基于Transformer
采用先进的Transformer架构,提供强大的语言识别能力
模型能力
文本语言检测
多语言识别
低资源语言支持
使用案例
内容管理
多语言内容分类
自动识别用户生成内容的语言,用于内容分类和路由
可准确识别200+种语言
本地化服务
语言自动检测
为翻译服务提供输入文本的语言检测
高准确率支持翻译服务的工作流程
🚀 Zabanshenas - 语言检测器
Zabanshenas 是一个基于 Transformer 的解决方案,用于识别书面文档或文本最可能使用的语言。“Zabanshenas” 是一个波斯语单词,有两种含义:
- 研究语言学的人。
- 识别书面语言类型的方法。
🚀 快速开始
如需了解更多信息,请访问 Zabanshenas 仓库!
📚 详细文档
评估
以下表格总结了模型在整体和每个类别上的得分情况。
按段落评估
语言 | 精确率 | 召回率 | F1 分数 |
---|---|---|---|
亚齐语 (ace) | 1.000000 | 0.982143 | 0.990991 |
南非荷兰语 (afr) | 1.000000 | 1.000000 | 1.000000 |
阿勒曼尼德语 (als) | 1.000000 | 0.946429 | 0.972477 |
阿姆哈拉语 (amh) | 1.000000 | 0.982143 | 0.990991 |
古英语 (ang) | 0.981818 | 0.964286 | 0.972973 |
阿拉伯语 (ara) | 0.846154 | 0.982143 | 0.909091 |
阿拉贡语 (arg) | 1.000000 | 1.000000 | 1.000000 |
埃及阿拉伯语 (arz) | 0.979592 | 0.857143 | 0.914286 |
阿萨姆语 (asm) | 0.981818 | 0.964286 | 0.972973 |
阿斯图里亚斯语 (ast) | 0.964912 | 0.982143 | 0.973451 |
阿瓦尔语 (ava) | 0.941176 | 0.905660 | 0.923077 |
艾马拉语 (aym) | 0.964912 | 0.982143 | 0.973451 |
南阿塞拜疆语 (azb) | 0.965517 | 1.000000 | 0.982456 |
阿塞拜疆语 (aze) | 1.000000 | 1.000000 | 1.000000 |
巴什基尔语 (bak) | 1.000000 | 0.978261 | 0.989011 |
巴伐利亚语 (bar) | 0.843750 | 0.964286 | 0.900000 |
中比科尔语 (bcl) | 1.000000 | 0.982143 | 0.990991 |
白俄罗斯语(塔拉什克维奇察方言) (be - tarask) | 1.000000 | 0.875000 | 0.933333 |
白俄罗斯语 (bel) | 0.870968 | 0.964286 | 0.915254 |
孟加拉语 (ben) | 0.982143 | 0.982143 | 0.982143 |
博杰普尔语 (bho) | 1.000000 | 0.928571 | 0.962963 |
班贾尔语 (bjn) | 0.981132 | 0.945455 | 0.962963 |
藏语 (bod) | 1.000000 | 0.982143 | 0.990991 |
波斯尼亚语 (bos) | 0.552632 | 0.375000 | 0.446809 |
比什努普里亚语 (bpy) | 1.000000 | 0.982143 | 0.990991 |
布列塔尼语 (bre) | 1.000000 | 0.964286 | 0.981818 |
保加利亚语 (bul) | 1.000000 | 0.964286 | 0.981818 |
布里亚特语 (bxr) | 0.946429 | 0.946429 | 0.946429 |
加泰罗尼亚语 (cat) | 0.982143 | 0.982143 | 0.982143 |
查瓦卡诺语 (cbk) | 0.914894 | 0.767857 | 0.834951 |
闽东语 (cdo) | 1.000000 | 0.982143 | 0.990991 |
宿务语 (ceb) | 1.000000 | 1.000000 | 1.000000 |
捷克语 (ces) | 1.000000 | 1.000000 | 1.000000 |
车臣语 (che) | 1.000000 | 1.000000 | 1.000000 |
切罗基语 (chr) | 1.000000 | 0.963636 | 0.981481 |
楚瓦什语 (chv) | 0.938776 | 0.958333 | 0.948454 |
中库尔德语 (ckb) | 1.000000 | 1.000000 | 1.000000 |
康沃尔语 (cor) | 1.000000 | 1.000000 | 1.000000 |
科西嘉语 (cos) | 1.000000 | 0.982143 | 0.990991 |
克里米亚鞑靼语 (crh) | 1.000000 | 0.946429 | 0.972477 |
卡舒比语 (csb) | 1.000000 | 0.963636 | 0.981481 |
威尔士语 (cym) | 1.000000 | 1.000000 | 1.000000 |
丹麦语 (dan) | 1.000000 | 1.000000 | 1.000000 |
德语 (deu) | 0.828125 | 0.946429 | 0.883333 |
迪姆利语 (diq) | 0.964912 | 0.982143 | 0.973451 |
迪维希语 (div) | 1.000000 | 1.000000 | 1.000000 |
下索布语 (dsb) | 1.000000 | 0.982143 | 0.990991 |
多塔利语 (dty) | 0.940000 | 0.854545 | 0.895238 |
艾米利亚语 (egl) | 1.000000 | 0.928571 | 0.962963 |
现代希腊语 (ell) | 1.000000 | 1.000000 | 1.000000 |
英语 (eng) | 0.588889 | 0.946429 | 0.726027 |
世界语 (epo) | 1.000000 | 0.982143 | 0.990991 |
爱沙尼亚语 (est) | 0.963636 | 0.946429 | 0.954955 |
巴斯克语 (eus) | 1.000000 | 0.982143 | 0.990991 |
埃斯特雷马杜拉语 (ext) | 0.982143 | 0.982143 | 0.982143 |
法罗语 (fao) | 1.000000 | 1.000000 | 1.000000 |
波斯语 (fas) | 0.948276 | 0.982143 | 0.964912 |
芬兰语 (fin) | 1.000000 | 1.000000 | 1.000000 |
法语 (fra) | 0.710145 | 0.875000 | 0.784000 |
阿尔皮塔语 (frp) | 1.000000 | 0.946429 | 0.972477 |
西弗里西亚语 (fry) | 0.982143 | 0.982143 | 0.982143 |
弗留利语 (fur) | 1.000000 | 0.982143 | 0.990991 |
加告兹语 (gag) | 0.981132 | 0.945455 | 0.962963 |
苏格兰盖尔语 (gla) | 0.982143 | 0.982143 | 0.982143 |
爱尔兰语 (gle) | 0.949153 | 1.000000 | 0.973913 |
加利西亚语 (glg) | 1.000000 | 1.000000 | 1.000000 |
吉拉基语 (glk) | 0.981132 | 0.945455 | 0.962963 |
马恩岛语 (glv) | 1.000000 | 1.000000 | 1.000000 |
瓜拉尼语 (grn) | 1.000000 | 0.964286 | 0.981818 |
古吉拉特语 (guj) | 1.000000 | 0.982143 | 0.990991 |
客家语 (hak) | 0.981818 | 0.964286 | 0.972973 |
海地克里奥尔语 (hat) | 1.000000 | 1.000000 | 1.000000 |
豪萨语 (hau) | 1.000000 | 0.945455 | 0.971963 |
塞尔维亚 - 克罗地亚语 (hbs) | 0.448276 | 0.464286 | 0.456140 |
希伯来语 (heb) | 1.000000 | 0.982143 | 0.990991 |
斐济印地语 (hif) | 0.890909 | 0.890909 | 0.890909 |
印地语 (hin) | 0.981481 | 0.946429 | 0.963636 |
克罗地亚语 (hrv) | 0.500000 | 0.636364 | 0.560000 |
上索布语 (hsb) | 0.955556 | 1.000000 | 0.977273 |
匈牙利语 (hun) | 1.000000 | 1.000000 | 1.000000 |
亚美尼亚语 (hye) | 1.000000 | 0.981818 | 0.990826 |
伊博语 (ibo) | 0.918033 | 1.000000 | 0.957265 |
伊多语 (ido) | 1.000000 | 1.000000 | 1.000000 |
国际语 (ile) | 1.000000 | 0.962264 | 0.980769 |
伊洛卡诺语 (ilo) | 0.947368 | 0.964286 | 0.955752 |
国际辅助语 (ina) | 1.000000 | 1.000000 | 1.000000 |
印尼语 (ind) | 0.761905 | 0.872727 | 0.813559 |
冰岛语 (isl) | 1.000000 | 1.000000 | 1.000000 |
意大利语 (ita) | 0.861538 | 1.000000 | 0.925620 |
牙买加克里奥尔语 (jam) | 1.000000 | 0.946429 | 0.972477 |
爪哇语 (jav) | 0.964912 | 0.982143 | 0.973451 |
逻辑语 (jbo) | 1.000000 | 1.000000 | 1.000000 |
日语 (jpn) | 1.000000 | 1.000000 | 1.000000 |
卡拉卡尔帕克语 (kaa) | 0.965517 | 1.000000 | 0.982456 |
卡拜尔语 (kab) | 1.000000 | 0.964286 | 0.981818 |
卡纳达语 (kan) | 0.982143 | 0.982143 | 0.982143 |
格鲁吉亚语 (kat) | 1.000000 | 0.964286 | 0.981818 |
哈萨克语 (kaz) | 0.980769 | 0.980769 | 0.980769 |
卡巴尔达语 (kbd) | 1.000000 | 0.982143 | 0.990991 |
中高棉语 (khm) | 0.960784 | 0.875000 | 0.915888 |
卢旺达语 (kin) | 0.981132 | 0.928571 | 0.954128 |
吉尔吉斯语 (kir) | 1.000000 | 1.000000 | 1.000000 |
科米 - 彼尔米亚克语 (koi) | 0.962264 | 0.910714 | 0.935780 |
孔卡尼语 (kok) | 0.964286 | 0.981818 | 0.972973 |
科米语 (kom) | 1.000000 | 0.962264 | 0.980769 |
韩语 (kor) | 1.000000 | 1.000000 | 1.000000 |
卡拉恰伊 - 巴尔卡尔语 (krc) | 1.000000 | 0.982143 | 0.990991 |
里普利安语 (ksh) | 1.000000 | 0.964286 | 0.981818 |
库尔德语 (kur) | 1.000000 | 0.964286 | 0.981818 |
拉迪诺语 (lad) | 1.000000 | 1.000000 | 1.000000 |
老挝语 (lao) | 0.961538 | 0.909091 | 0.934579 |
拉丁语 (lat) | 0.877193 | 0.943396 | 0.909091 |
拉脱维亚语 (lav) | 0.963636 | 0.946429 | 0.954955 |
列兹金语 (lez) | 1.000000 | 0.964286 | 0.981818 |
利古里亚语 (lij) | 1.000000 | 0.964286 | 0.981818 |
林堡语 (lim) | 0.938776 | 1.000000 | 0.968421 |
林加拉语 (lin) | 0.980769 | 0.927273 | 0.953271 |
立陶宛语 (lit) | 0.982456 | 1.000000 | 0.991150 |
伦巴第语 (lmo) | 1.000000 | 1.000000 | 1.000000 |
北卢里语 (lrc) | 1.000000 | 0.928571 | 0.962963 |
拉特加莱语 (ltg) | 1.000000 | 0.982143 | 0.990991 |
卢森堡语 (ltz) | 0.949153 | 1.000000 | 0.973913 |
卢干达语 (lug) | 1.000000 | 1.000000 | 1.000000 |
文言文 (lzh) | 1.000000 | 1.000000 | 1.000000 |
迈蒂利语 (mai) | 0.931034 | 0.964286 | 0.947368 |
马拉雅拉姆语 (mal) | 1.000000 | 0.982143 | 0.990991 |
马都拉语 (map - bms) | 0.977778 | 0.785714 | 0.871287 |
马拉地语 (mar) | 0.949153 | 1.000000 | 0.973913 |
莫克沙语 (mdf) | 0.980000 | 0.890909 | 0.933333 |
东马里语 (mhr) | 0.981818 | 0.964286 | 0.972973 |
米南加保语 (min) | 1.000000 | 1.000000 | 1.000000 |
马其顿语 (mkd) | 1.000000 | 0.981818 | 0.990826 |
马尔加什语 (mlg) | 0.981132 | 1.000000 | 0.990476 |
马耳他语 (mlt) | 0.982456 | 1.000000 | 0.991150 |
闽南语 (nan) | 1.000000 | 1.000000 | 1.000000 |
蒙古语 (mon) | 1.000000 | 0.981818 | 0.990826 |
毛利语 (mri) | 1.000000 | 1.000000 | 1.000000 |
西马里语 (mrj) | 0.982456 | 1.000000 | 0.991150 |
马来语 (msa) | 0.862069 | 0.892857 | 0.877193 |
米兰德斯语 (mwl) | 1.000000 | 0.982143 | 0.990991 |
缅甸语 (mya) | 1.000000 | 1.000000 | 1.000000 |
埃尔齐亚语 (myv) | 0.818182 | 0.964286 | 0.885246 |
马赞德兰语 (mzn) | 0.981481 | 1.000000 | 0.990654 |
那不勒斯语 (nap) | 1.000000 | 0.981818 | 0.990826 |
纳瓦霍语 (nav) | 1.000000 | 1.000000 | 1.000000 |
古典纳瓦特语 (nci) | 0.981481 | 0.946429 | 0.963636 |
低地德语 (nds) | 0.982143 | 0.982143 | 0.982143 |
西低地德语 (nds - nl) | 1.000000 | 1.000000 | 1.000000 |
尼泊尔语(宏观语言) (nep) | 0.881356 | 0.928571 | 0.904348 |
尼瓦尔语 (new) | 1.000000 | 0.909091 | 0.952381 |
荷兰语 (nld) | 0.982143 | 0.982143 | 0.982143 |
挪威尼诺斯克语 (nno) | 1.000000 | 1.000000 | 1.000000 |
书面挪威语 (nob) | 1.000000 | 1.000000 | 1.000000 |
纳罗姆语 (nrm) | 0.981818 | 0.964286 | 0.972973 |
北索托语 (nso) | 1.000000 | 1.000000 | 1.000000 |
奥克语 (oci) | 0.903846 | 0.839286 | 0.870370 |
利维 - 卡累利阿语 (olo) | 0.982456 | 1.000000 | 0.991150 |
奥里亚语 (ori) | 0.964912 | 0.982143 | 0.973451 |
奥罗莫语 (orm) | 0.982143 | 0.982143 | 0.982143 |
奥塞梯语 (oss) | 0.982143 | 1.000000 | 0.990991 |
邦阿西楠语 (pag) | 0.980000 | 0.875000 | 0.924528 |
邦板牙语 (pam) | 0.928571 | 0.896552 | 0.912281 |
旁遮普语 (pan) | 1.000000 | 1.000000 | 1.000000 |
帕皮阿门托语 (pap) | 1.000000 | 0.964286 | 0.981818 |
皮卡迪语 (pcd) | 0.849057 | 0.849057 | 0.849057 |
宾夕法尼亚德语 (pdc) | 0.854839 | 0.946429 | 0.898305 |
普法尔茨德语 (pfl) | 0.946429 | 0.946429 | 0.946429 |
西旁遮普语 (pnb) | 0.981132 | 0.962963 | 0.971963 |
波兰语 (pol) | 0.933333 | 1.000000 | 0.965517 |
葡萄牙语 (por) | 0.774648 | 0.982143 | 0.866142 |
普什图语 (pus) | 1.000000 | 0.910714 | 0.953271 |
克丘亚语 (que) | 0.962963 | 0.928571 | 0.945455 |
塔兰托方言 (roa - tara) | 1.000000 | 0.964286 | 0.981818 |
罗曼什语 (roh) | 1.000000 | 0.928571 | 0.962963 |
罗马尼亚语 (ron) | 0.965517 | 1.000000 | 0.982456 |
鲁塞尼亚语 (rue) | 0.946429 | 0.946429 | 0.946429 |
阿罗马尼亚语 (rup) | 0.962963 | 0.928571 | 0.945455 |
俄语 (rus) | 0.859375 | 0.982143 | 0.916667 |
雅库特语 (sah) | 1.000000 | 0.982143 | 0.990991 |
梵语 (san) | 0.982143 | 0.982143 | 0.982143 |
西西里语 (scn) | 1.000000 | 1.000000 | 1.000000 |
苏格兰语 (sco) | 0.982143 | 0.982143 | 0.982143 |
萨莫吉希亚语 (sgs) | 1.000000 | 0.982143 | 0.990991 |
僧伽罗语 (sin) | 0.964912 | 0.982143 | 0.973451 |
斯洛伐克语 (slk) | 1.000000 | 0.982143 | 0.990991 |
斯洛文尼亚语 (slv) | 1.000000 | 0.981818 | 0.990826 |
北萨米语 (sme) | 0.962264 | 0.962264 | 0.962264 |
绍纳语 (sna) | 0.933333 | 1.000000 | 0.965517 |
信德语 (snd) | 1.000000 | 1.000000 | 1.000000 |
索马里语 (som) | 0.948276 | 1.000000 | 0.973451 |
西班牙语 (spa) | 0.739130 | 0.910714 | 0.816000 |
阿尔巴尼亚语 (sqi) | 0.982143 | 0.982143 | 0.982143 |
撒丁语 (srd) | 1.000000 | 0.982143 | 0.990991 |
斯拉南语 (srn) | 1.000000 | 1.000000 | 1.000000 |
塞尔维亚语 (srp) | 1.000000 | 0.946429 | 0.972477 |
萨特弗里西亚语 (stq) | 1.000000 | 0.964286 | 0.981818 |
巽他语 (sun) | 1.000000 | 0.977273 | 0.988506 |
斯瓦希里语(宏观语言) (swa) | 1.000000 | 1.000000 | 1.000000 |
瑞典语 (swe) | 1.000000 | 1.000000 | 1.000000 |
西里西亚语 (szl) | 1.000000 | 0.981481 | 0.990654 |
泰米尔语 (tam) | 0.982143 | 1.000000 | 0.990991 |
鞑靼语 (tat) | 1.000000 | 1.000000 | 1.000000 |
图卢语 (tcy) | 0.982456 | 1.000000 | 0.991150 |
泰卢固语 (tel) | 1.000000 | 0.920000 | 0.958333 |
德顿语 (tet) | 1.000000 | 0.964286 | 0.981818 |
塔吉克语 (tgk) | 1.000000 | 1.000000 | 1.000000 |
他加禄语 (tgl) | 1.000000 | 1.000000 | 1.000000 |
泰语 (tha) | 0.932203 | 0.982143 | 0.956522 |
汤加语 (ton) | 1.000000 | 0.964286 | 0.981818 |
茨瓦纳语 (tsn) | 1.000000 | 1.000000 | 1.000000 |
土库曼语 (tuk) | 1.000000 | 0.982143 | 0.990991 |
土耳其语 (tur) | 0.901639 | 0.982143 | 0.940171 |
图瓦语 (tyv) | 1.000000 | 0.964286 | 0.981818 |
乌德穆尔特语 (udm) | 1.000000 | 0.982143 | 0.990991 |
维吾尔语 (uig) | 1.000000 | 0.982143 | 0.990991 |
乌克兰语 (ukr) | 0.963636 | 0.946429 | 0.954955 |
乌尔都语 (urd) | 1.000000 | 0.982143 | 0.990991 |
乌兹别克语 (uzb) | 1.000000 | 1.000000 | 1.000000 |
威尼斯语 (vec) | 1.000000 | 0.982143 | 0.990991 |
韦普斯语 (vep) | 0.982456 | 1.000000 | 0.991150 |
越南语 (vie) | 0.964912 | 0.982143 | 0.973451 |
弗拉芒语 (vls) | 1.000000 | 0.982143 | 0.990991 |
沃拉普克语 (vol) | 1.000000 | 1.000000 | 1.000000 |
沃罗语 (vro) | 0.964286 | 0.964286 | 0.964286 |
瓦雷语 (war) | 1.000000 | 0.982143 | 0.990991 |
瓦隆语 (wln) | 1.000000 | 1.000000 | 1.000000 |
沃洛夫语 (wol) | 0.981481 | 0.963636 | 0.972477 |
吴语 (wuu) | 0.981481 | 0.946429 | 0.963636 |
科萨语 (xho) | 1.000000 | 0.964286 | 0.981818 |
明格列利亚语 (xmf) | 1.000000 | 0.964286 | 0.981818 |
意第绪语 (yid) | 1.000000 | 1.000000 | 1.000000 |
约鲁巴语 (yor) | 0.981481 | 0.963636 | 0.972477 |
粤语 (zh - yue) | 0.981818 | 0.964286 | 0.972973 |
中文 (zho) | 0.981818 | 0.964286 | 0.972973 |
📄 许可证
本项目采用 Apache - 2.0 许可证。
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基于DistilBERT-base-uncased在SST-2情感分析数据集上微调的文本分类模型,准确率91.3%
文本分类 英语
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基于XLM-RoBERTa的多语言检测模型,支持20种语言的文本分类
文本分类
Transformers 支持多种语言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
该模型通过动态生成数据集来改进在线仇恨检测,专注于从最差案例中学习以提高检测效果。
文本分类
Transformers 英语

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基于bert-base-multilingual-uncased微调的多语言情感分析模型,支持6种语言的商品评论情感分析
文本分类 支持多种语言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基于DistilRoBERTa-base微调的英文文本情感分类模型,可预测埃克曼六种基本情绪及中性类别。
文本分类
Transformers 英语

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基于RoBERTuito的西班牙语推文情感分析模型,支持POS(积极)/NEG(消极)/NEU(中性)三类情感分类
文本分类 西班牙语
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基于金融通讯文本预训练的BERT模型,专注于金融自然语言处理领域。finbert-tone是其微调版本,用于金融情感分析任务。
文本分类
Transformers 英语

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基于RoBERTa-base的多标签情感分类模型,在go_emotions数据集上训练,支持28种情感标签识别。
文本分类
Transformers 英语

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一个基于XLM-T模型微调的多语言情感分析模型,支持19种语言,专门针对社交媒体文本的情感预测。
文本分类
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基于MultiNLI、Fever-NLI和ANLI数据集训练的DeBERTa-v3模型,擅长零样本分类和自然语言推理任务
文本分类
Transformers 英语

D
MoritzLaurer
613.93k
204
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98