Zabanshenas Roberta Base Mix
Zabanshenas 是一種基於 Transformer 的解決方案,用於識別書面文檔/文本最可能的語言。
下載量 23
發布時間 : 3/2/2022
模型概述
Zabanshenas 是一個波斯語單詞,具有兩個含義:研究語言學的人和識別書面語言類型的方法。該模型支持超過200種語言的檢測。
模型特點
多語言支持
支持超過200種語言的檢測,包括許多小眾和低資源語言
高準確率
在大多數語言上達到90%以上的F1分數
基於Transformer
採用先進的Transformer架構,提供強大的語言識別能力
模型能力
文本語言檢測
多語言識別
低資源語言支持
使用案例
內容管理
多語言內容分類
自動識別用戶生成內容的語言,用於內容分類和路由
可準確識別200+種語言
本地化服務
語言自動檢測
為翻譯服務提供輸入文本的語言檢測
高準確率支持翻譯服務的工作流程
🚀 Zabanshenas - 語言檢測器
Zabanshenas 是一個基於 Transformer 的解決方案,用於識別書面文檔或文本最可能使用的語言。“Zabanshenas” 是一個波斯語單詞,有兩種含義:
- 研究語言學的人。
- 識別書面語言類型的方法。
🚀 快速開始
如需瞭解更多信息,請訪問 Zabanshenas 倉庫!
📚 詳細文檔
評估
以下表格總結了模型在整體和每個類別上的得分情況。
按段落評估
語言 | 精確率 | 召回率 | F1 分數 |
---|---|---|---|
亞齊語 (ace) | 1.000000 | 0.982143 | 0.990991 |
南非荷蘭語 (afr) | 1.000000 | 1.000000 | 1.000000 |
阿勒曼尼德語 (als) | 1.000000 | 0.946429 | 0.972477 |
阿姆哈拉語 (amh) | 1.000000 | 0.982143 | 0.990991 |
古英語 (ang) | 0.981818 | 0.964286 | 0.972973 |
阿拉伯語 (ara) | 0.846154 | 0.982143 | 0.909091 |
阿拉貢語 (arg) | 1.000000 | 1.000000 | 1.000000 |
埃及阿拉伯語 (arz) | 0.979592 | 0.857143 | 0.914286 |
阿薩姆語 (asm) | 0.981818 | 0.964286 | 0.972973 |
阿斯圖里亞斯語 (ast) | 0.964912 | 0.982143 | 0.973451 |
阿瓦爾語 (ava) | 0.941176 | 0.905660 | 0.923077 |
艾馬拉語 (aym) | 0.964912 | 0.982143 | 0.973451 |
南阿塞拜疆語 (azb) | 0.965517 | 1.000000 | 0.982456 |
阿塞拜疆語 (aze) | 1.000000 | 1.000000 | 1.000000 |
巴什基爾語 (bak) | 1.000000 | 0.978261 | 0.989011 |
巴伐利亞語 (bar) | 0.843750 | 0.964286 | 0.900000 |
中比科爾語 (bcl) | 1.000000 | 0.982143 | 0.990991 |
白俄羅斯語(塔拉什克維奇察方言) (be - tarask) | 1.000000 | 0.875000 | 0.933333 |
白俄羅斯語 (bel) | 0.870968 | 0.964286 | 0.915254 |
孟加拉語 (ben) | 0.982143 | 0.982143 | 0.982143 |
博傑普爾語 (bho) | 1.000000 | 0.928571 | 0.962963 |
班賈爾語 (bjn) | 0.981132 | 0.945455 | 0.962963 |
藏語 (bod) | 1.000000 | 0.982143 | 0.990991 |
波斯尼亞語 (bos) | 0.552632 | 0.375000 | 0.446809 |
比什努普里亞語 (bpy) | 1.000000 | 0.982143 | 0.990991 |
布列塔尼語 (bre) | 1.000000 | 0.964286 | 0.981818 |
保加利亞語 (bul) | 1.000000 | 0.964286 | 0.981818 |
布里亞特語 (bxr) | 0.946429 | 0.946429 | 0.946429 |
加泰羅尼亞語 (cat) | 0.982143 | 0.982143 | 0.982143 |
查瓦卡諾語 (cbk) | 0.914894 | 0.767857 | 0.834951 |
閩東語 (cdo) | 1.000000 | 0.982143 | 0.990991 |
宿務語 (ceb) | 1.000000 | 1.000000 | 1.000000 |
捷克語 (ces) | 1.000000 | 1.000000 | 1.000000 |
車臣語 (che) | 1.000000 | 1.000000 | 1.000000 |
切羅基語 (chr) | 1.000000 | 0.963636 | 0.981481 |
楚瓦什語 (chv) | 0.938776 | 0.958333 | 0.948454 |
中庫爾德語 (ckb) | 1.000000 | 1.000000 | 1.000000 |
康沃爾語 (cor) | 1.000000 | 1.000000 | 1.000000 |
科西嘉語 (cos) | 1.000000 | 0.982143 | 0.990991 |
克里米亞韃靼語 (crh) | 1.000000 | 0.946429 | 0.972477 |
卡舒比語 (csb) | 1.000000 | 0.963636 | 0.981481 |
威爾士語 (cym) | 1.000000 | 1.000000 | 1.000000 |
丹麥語 (dan) | 1.000000 | 1.000000 | 1.000000 |
德語 (deu) | 0.828125 | 0.946429 | 0.883333 |
迪姆利語 (diq) | 0.964912 | 0.982143 | 0.973451 |
迪維希語 (div) | 1.000000 | 1.000000 | 1.000000 |
下索布語 (dsb) | 1.000000 | 0.982143 | 0.990991 |
多塔利語 (dty) | 0.940000 | 0.854545 | 0.895238 |
艾米利亞語 (egl) | 1.000000 | 0.928571 | 0.962963 |
現代希臘語 (ell) | 1.000000 | 1.000000 | 1.000000 |
英語 (eng) | 0.588889 | 0.946429 | 0.726027 |
世界語 (epo) | 1.000000 | 0.982143 | 0.990991 |
愛沙尼亞語 (est) | 0.963636 | 0.946429 | 0.954955 |
巴斯克語 (eus) | 1.000000 | 0.982143 | 0.990991 |
埃斯特雷馬杜拉語 (ext) | 0.982143 | 0.982143 | 0.982143 |
法羅語 (fao) | 1.000000 | 1.000000 | 1.000000 |
波斯語 (fas) | 0.948276 | 0.982143 | 0.964912 |
芬蘭語 (fin) | 1.000000 | 1.000000 | 1.000000 |
法語 (fra) | 0.710145 | 0.875000 | 0.784000 |
阿爾皮塔語 (frp) | 1.000000 | 0.946429 | 0.972477 |
西弗裡西亞語 (fry) | 0.982143 | 0.982143 | 0.982143 |
弗留利語 (fur) | 1.000000 | 0.982143 | 0.990991 |
加告茲語 (gag) | 0.981132 | 0.945455 | 0.962963 |
蘇格蘭蓋爾語 (gla) | 0.982143 | 0.982143 | 0.982143 |
愛爾蘭語 (gle) | 0.949153 | 1.000000 | 0.973913 |
加利西亞語 (glg) | 1.000000 | 1.000000 | 1.000000 |
吉拉基語 (glk) | 0.981132 | 0.945455 | 0.962963 |
馬恩島語 (glv) | 1.000000 | 1.000000 | 1.000000 |
瓜拉尼語 (grn) | 1.000000 | 0.964286 | 0.981818 |
古吉拉特語 (guj) | 1.000000 | 0.982143 | 0.990991 |
客家語 (hak) | 0.981818 | 0.964286 | 0.972973 |
海地克里奧爾語 (hat) | 1.000000 | 1.000000 | 1.000000 |
豪薩語 (hau) | 1.000000 | 0.945455 | 0.971963 |
塞爾維亞 - 克羅地亞語 (hbs) | 0.448276 | 0.464286 | 0.456140 |
希伯來語 (heb) | 1.000000 | 0.982143 | 0.990991 |
斐濟印地語 (hif) | 0.890909 | 0.890909 | 0.890909 |
印地語 (hin) | 0.981481 | 0.946429 | 0.963636 |
克羅地亞語 (hrv) | 0.500000 | 0.636364 | 0.560000 |
上索布語 (hsb) | 0.955556 | 1.000000 | 0.977273 |
匈牙利語 (hun) | 1.000000 | 1.000000 | 1.000000 |
亞美尼亞語 (hye) | 1.000000 | 0.981818 | 0.990826 |
伊博語 (ibo) | 0.918033 | 1.000000 | 0.957265 |
伊多語 (ido) | 1.000000 | 1.000000 | 1.000000 |
國際語 (ile) | 1.000000 | 0.962264 | 0.980769 |
伊洛卡諾語 (ilo) | 0.947368 | 0.964286 | 0.955752 |
國際輔助語 (ina) | 1.000000 | 1.000000 | 1.000000 |
印尼語 (ind) | 0.761905 | 0.872727 | 0.813559 |
冰島語 (isl) | 1.000000 | 1.000000 | 1.000000 |
意大利語 (ita) | 0.861538 | 1.000000 | 0.925620 |
牙買加克里奧爾語 (jam) | 1.000000 | 0.946429 | 0.972477 |
爪哇語 (jav) | 0.964912 | 0.982143 | 0.973451 |
邏輯語 (jbo) | 1.000000 | 1.000000 | 1.000000 |
日語 (jpn) | 1.000000 | 1.000000 | 1.000000 |
卡拉卡爾帕克語 (kaa) | 0.965517 | 1.000000 | 0.982456 |
卡拜爾語 (kab) | 1.000000 | 0.964286 | 0.981818 |
卡納達語 (kan) | 0.982143 | 0.982143 | 0.982143 |
格魯吉亞語 (kat) | 1.000000 | 0.964286 | 0.981818 |
哈薩克語 (kaz) | 0.980769 | 0.980769 | 0.980769 |
卡巴爾達語 (kbd) | 1.000000 | 0.982143 | 0.990991 |
中高棉語 (khm) | 0.960784 | 0.875000 | 0.915888 |
盧旺達語 (kin) | 0.981132 | 0.928571 | 0.954128 |
吉爾吉斯語 (kir) | 1.000000 | 1.000000 | 1.000000 |
科米 - 彼爾米亞克語 (koi) | 0.962264 | 0.910714 | 0.935780 |
孔卡尼語 (kok) | 0.964286 | 0.981818 | 0.972973 |
科米語 (kom) | 1.000000 | 0.962264 | 0.980769 |
韓語 (kor) | 1.000000 | 1.000000 | 1.000000 |
卡拉恰伊 - 巴爾卡爾語 (krc) | 1.000000 | 0.982143 | 0.990991 |
裡普利安語 (ksh) | 1.000000 | 0.964286 | 0.981818 |
庫爾德語 (kur) | 1.000000 | 0.964286 | 0.981818 |
拉迪諾語 (lad) | 1.000000 | 1.000000 | 1.000000 |
老撾語 (lao) | 0.961538 | 0.909091 | 0.934579 |
拉丁語 (lat) | 0.877193 | 0.943396 | 0.909091 |
拉脫維亞語 (lav) | 0.963636 | 0.946429 | 0.954955 |
列茲金語 (lez) | 1.000000 | 0.964286 | 0.981818 |
利古里亞語 (lij) | 1.000000 | 0.964286 | 0.981818 |
林堡語 (lim) | 0.938776 | 1.000000 | 0.968421 |
林加拉語 (lin) | 0.980769 | 0.927273 | 0.953271 |
立陶宛語 (lit) | 0.982456 | 1.000000 | 0.991150 |
倫巴第語 (lmo) | 1.000000 | 1.000000 | 1.000000 |
北盧里語 (lrc) | 1.000000 | 0.928571 | 0.962963 |
拉特加萊語 (ltg) | 1.000000 | 0.982143 | 0.990991 |
盧森堡語 (ltz) | 0.949153 | 1.000000 | 0.973913 |
盧幹達語 (lug) | 1.000000 | 1.000000 | 1.000000 |
文言文 (lzh) | 1.000000 | 1.000000 | 1.000000 |
邁蒂利語 (mai) | 0.931034 | 0.964286 | 0.947368 |
馬拉雅拉姆語 (mal) | 1.000000 | 0.982143 | 0.990991 |
馬都拉語 (map - bms) | 0.977778 | 0.785714 | 0.871287 |
馬拉地語 (mar) | 0.949153 | 1.000000 | 0.973913 |
莫克沙語 (mdf) | 0.980000 | 0.890909 | 0.933333 |
東馬里語 (mhr) | 0.981818 | 0.964286 | 0.972973 |
米南加保語 (min) | 1.000000 | 1.000000 | 1.000000 |
馬其頓語 (mkd) | 1.000000 | 0.981818 | 0.990826 |
馬爾加什語 (mlg) | 0.981132 | 1.000000 | 0.990476 |
馬耳他語 (mlt) | 0.982456 | 1.000000 | 0.991150 |
閩南語 (nan) | 1.000000 | 1.000000 | 1.000000 |
蒙古語 (mon) | 1.000000 | 0.981818 | 0.990826 |
毛利語 (mri) | 1.000000 | 1.000000 | 1.000000 |
西馬里語 (mrj) | 0.982456 | 1.000000 | 0.991150 |
馬來語 (msa) | 0.862069 | 0.892857 | 0.877193 |
米蘭德斯語 (mwl) | 1.000000 | 0.982143 | 0.990991 |
緬甸語 (mya) | 1.000000 | 1.000000 | 1.000000 |
埃爾齊亞語 (myv) | 0.818182 | 0.964286 | 0.885246 |
馬贊德蘭語 (mzn) | 0.981481 | 1.000000 | 0.990654 |
那不勒斯語 (nap) | 1.000000 | 0.981818 | 0.990826 |
納瓦霍語 (nav) | 1.000000 | 1.000000 | 1.000000 |
古典納瓦特語 (nci) | 0.981481 | 0.946429 | 0.963636 |
低地德語 (nds) | 0.982143 | 0.982143 | 0.982143 |
西低地德語 (nds - nl) | 1.000000 | 1.000000 | 1.000000 |
尼泊爾語(宏觀語言) (nep) | 0.881356 | 0.928571 | 0.904348 |
尼瓦爾語 (new) | 1.000000 | 0.909091 | 0.952381 |
荷蘭語 (nld) | 0.982143 | 0.982143 | 0.982143 |
挪威尼諾斯克語 (nno) | 1.000000 | 1.000000 | 1.000000 |
書面挪威語 (nob) | 1.000000 | 1.000000 | 1.000000 |
納羅姆語 (nrm) | 0.981818 | 0.964286 | 0.972973 |
北索托語 (nso) | 1.000000 | 1.000000 | 1.000000 |
奧克語 (oci) | 0.903846 | 0.839286 | 0.870370 |
利維 - 卡累利阿語 (olo) | 0.982456 | 1.000000 | 0.991150 |
奧里亞語 (ori) | 0.964912 | 0.982143 | 0.973451 |
奧羅莫語 (orm) | 0.982143 | 0.982143 | 0.982143 |
奧塞梯語 (oss) | 0.982143 | 1.000000 | 0.990991 |
邦阿西楠語 (pag) | 0.980000 | 0.875000 | 0.924528 |
邦板牙語 (pam) | 0.928571 | 0.896552 | 0.912281 |
旁遮普語 (pan) | 1.000000 | 1.000000 | 1.000000 |
帕皮阿門託語 (pap) | 1.000000 | 0.964286 | 0.981818 |
皮卡迪語 (pcd) | 0.849057 | 0.849057 | 0.849057 |
賓夕法尼亞德語 (pdc) | 0.854839 | 0.946429 | 0.898305 |
普法爾茨德語 (pfl) | 0.946429 | 0.946429 | 0.946429 |
西旁遮普語 (pnb) | 0.981132 | 0.962963 | 0.971963 |
波蘭語 (pol) | 0.933333 | 1.000000 | 0.965517 |
葡萄牙語 (por) | 0.774648 | 0.982143 | 0.866142 |
普什圖語 (pus) | 1.000000 | 0.910714 | 0.953271 |
克丘亞語 (que) | 0.962963 | 0.928571 | 0.945455 |
塔蘭託方言 (roa - tara) | 1.000000 | 0.964286 | 0.981818 |
羅曼什語 (roh) | 1.000000 | 0.928571 | 0.962963 |
羅馬尼亞語 (ron) | 0.965517 | 1.000000 | 0.982456 |
魯塞尼亞語 (rue) | 0.946429 | 0.946429 | 0.946429 |
阿羅馬尼亞語 (rup) | 0.962963 | 0.928571 | 0.945455 |
俄語 (rus) | 0.859375 | 0.982143 | 0.916667 |
雅庫特語 (sah) | 1.000000 | 0.982143 | 0.990991 |
梵語 (san) | 0.982143 | 0.982143 | 0.982143 |
西西里語 (scn) | 1.000000 | 1.000000 | 1.000000 |
蘇格蘭語 (sco) | 0.982143 | 0.982143 | 0.982143 |
薩莫吉希亞語 (sgs) | 1.000000 | 0.982143 | 0.990991 |
僧伽羅語 (sin) | 0.964912 | 0.982143 | 0.973451 |
斯洛伐克語 (slk) | 1.000000 | 0.982143 | 0.990991 |
斯洛文尼亞語 (slv) | 1.000000 | 0.981818 | 0.990826 |
北薩米語 (sme) | 0.962264 | 0.962264 | 0.962264 |
紹納語 (sna) | 0.933333 | 1.000000 | 0.965517 |
信德語 (snd) | 1.000000 | 1.000000 | 1.000000 |
索馬里語 (som) | 0.948276 | 1.000000 | 0.973451 |
西班牙語 (spa) | 0.739130 | 0.910714 | 0.816000 |
阿爾巴尼亞語 (sqi) | 0.982143 | 0.982143 | 0.982143 |
撒丁語 (srd) | 1.000000 | 0.982143 | 0.990991 |
斯拉南語 (srn) | 1.000000 | 1.000000 | 1.000000 |
塞爾維亞語 (srp) | 1.000000 | 0.946429 | 0.972477 |
薩特弗裡西亞語 (stq) | 1.000000 | 0.964286 | 0.981818 |
巽他語 (sun) | 1.000000 | 0.977273 | 0.988506 |
斯瓦希里語(宏觀語言) (swa) | 1.000000 | 1.000000 | 1.000000 |
瑞典語 (swe) | 1.000000 | 1.000000 | 1.000000 |
西里西亞語 (szl) | 1.000000 | 0.981481 | 0.990654 |
泰米爾語 (tam) | 0.982143 | 1.000000 | 0.990991 |
韃靼語 (tat) | 1.000000 | 1.000000 | 1.000000 |
圖盧語 (tcy) | 0.982456 | 1.000000 | 0.991150 |
泰盧固語 (tel) | 1.000000 | 0.920000 | 0.958333 |
德頓語 (tet) | 1.000000 | 0.964286 | 0.981818 |
塔吉克語 (tgk) | 1.000000 | 1.000000 | 1.000000 |
他加祿語 (tgl) | 1.000000 | 1.000000 | 1.000000 |
泰語 (tha) | 0.932203 | 0.982143 | 0.956522 |
湯加語 (ton) | 1.000000 | 0.964286 | 0.981818 |
茨瓦納語 (tsn) | 1.000000 | 1.000000 | 1.000000 |
土庫曼語 (tuk) | 1.000000 | 0.982143 | 0.990991 |
土耳其語 (tur) | 0.901639 | 0.982143 | 0.940171 |
圖瓦語 (tyv) | 1.000000 | 0.964286 | 0.981818 |
烏德穆爾特語 (udm) | 1.000000 | 0.982143 | 0.990991 |
維吾爾語 (uig) | 1.000000 | 0.982143 | 0.990991 |
烏克蘭語 (ukr) | 0.963636 | 0.946429 | 0.954955 |
烏爾都語 (urd) | 1.000000 | 0.982143 | 0.990991 |
烏茲別克語 (uzb) | 1.000000 | 1.000000 | 1.000000 |
威尼斯語 (vec) | 1.000000 | 0.982143 | 0.990991 |
韋普斯語 (vep) | 0.982456 | 1.000000 | 0.991150 |
越南語 (vie) | 0.964912 | 0.982143 | 0.973451 |
弗拉芒語 (vls) | 1.000000 | 0.982143 | 0.990991 |
沃拉普克語 (vol) | 1.000000 | 1.000000 | 1.000000 |
沃羅語 (vro) | 0.964286 | 0.964286 | 0.964286 |
瓦雷語 (war) | 1.000000 | 0.982143 | 0.990991 |
瓦隆語 (wln) | 1.000000 | 1.000000 | 1.000000 |
沃洛夫語 (wol) | 0.981481 | 0.963636 | 0.972477 |
吳語 (wuu) | 0.981481 | 0.946429 | 0.963636 |
科薩語 (xho) | 1.000000 | 0.964286 | 0.981818 |
明格列利亞語 (xmf) | 1.000000 | 0.964286 | 0.981818 |
意第緒語 (yid) | 1.000000 | 1.000000 | 1.000000 |
約魯巴語 (yor) | 0.981481 | 0.963636 | 0.972477 |
粵語 (zh - yue) | 0.981818 | 0.964286 | 0.972973 |
中文 (zho) | 0.981818 | 0.964286 | 0.972973 |
📄 許可證
本項目採用 Apache - 2.0 許可證。
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基於DistilBERT-base-uncased在SST-2情感分析數據集上微調的文本分類模型,準確率91.3%
文本分類 英語
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基於XLM-RoBERTa的多語言檢測模型,支持20種語言的文本分類
文本分類
Transformers 支持多種語言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
該模型通過動態生成數據集來改進在線仇恨檢測,專注於從最差案例中學習以提高檢測效果。
文本分類
Transformers 英語

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基於bert-base-multilingual-uncased微調的多語言情感分析模型,支持6種語言的商品評論情感分析
文本分類 支持多種語言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基於DistilRoBERTa-base微調的英文文本情感分類模型,可預測埃克曼六種基本情緒及中性類別。
文本分類
Transformers 英語

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基於RoBERTuito的西班牙語推文情感分析模型,支持POS(積極)/NEG(消極)/NEU(中性)三類情感分類
文本分類 西班牙語
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基於金融通訊文本預訓練的BERT模型,專注於金融自然語言處理領域。finbert-tone是其微調版本,用於金融情感分析任務。
文本分類
Transformers 英語

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基於RoBERTa-base的多標籤情感分類模型,在go_emotions數據集上訓練,支持28種情感標籤識別。
文本分類
Transformers 英語

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一個基於XLM-T模型微調的多語言情感分析模型,支持19種語言,專門針對社交媒體文本的情感預測。
文本分類
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基於MultiNLI、Fever-NLI和ANLI數據集訓練的DeBERTa-v3模型,擅長零樣本分類和自然語言推理任務
文本分類
Transformers 英語

D
MoritzLaurer
613.93k
204
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98