Zabanshenas Roberta Base Mix
Zabanshenasは、Transformerベースのソリューションで、書面文書/テキストの最も可能性の高い言語を識別するために使用されます。
Downloads 23
Release Time : 3/2/2022
Model Overview
Zabanshenasはペルシャ語の単語で、2つの意味を持っています。言語学を研究する人と、書面言語のタイプを識別する方法です。このモデルは200種類以上の言語の検出をサポートしています。
Model Features
多言語サポート
200種類以上の言語の検出をサポートし、多くのマイナー言語や低リソース言語も含まれます。
高い正確性
ほとんどの言語で90%以上のF1スコアを達成します。
Transformerベース
先進的なTransformerアーキテクチャを採用し、強力な言語識別能力を提供します。
Model Capabilities
テキスト言語検出
多言語識別
低リソース言語サポート
Use Cases
コンテンツ管理
多言語コンテンツ分類
ユーザー生成コンテンツの言語を自動識別し、コンテンツ分類とルーティングに使用します。
200種類以上の言語を正確に識別できます。
ローカライゼーションサービス
言語自動検出
翻訳サービスに入力テキストの言語検出を提供します。
高い正確性で翻訳サービスのワークフローをサポートします。
🚀 Zabanshenas - 言語検出器
Zabanshenasは、Transformerベースのソリューションで、書面文書やテキストの最も可能性の高い言語を識別します。Zabanshenasはペルシャ語の単語で、2つの意味を持ちます。
- 言語学を研究する人。
- 書面言語のタイプを識別する方法。
🚀 クイックスタート
詳細情報については、Zabanshenas コードリポジトリをご覧ください!
✨ 主な機能
評価
以下の表は、モデル全体と各クラスのスコアをまとめたものです。
段落別
言語 | 精度 | 再現率 | F1スコア |
---|---|---|---|
アチ語 (ace) | 1.000000 | 0.982143 | 0.990991 |
アフリカーンス語 (afr) | 1.000000 | 1.000000 | 1.000000 |
アレマン語 (als) | 1.000000 | 0.946429 | 0.972477 |
アムハラ語 (amh) | 1.000000 | 0.982143 | 0.990991 |
古英語 (ang) | 0.981818 | 0.964286 | 0.972973 |
アラビア語 (ara) | 0.846154 | 0.982143 | 0.909091 |
アラゴン語 (arg) | 1.000000 | 1.000000 | 1.000000 |
エジプトアラビア語 (arz) | 0.979592 | 0.857143 | 0.914286 |
アッサム語 (asm) | 0.981818 | 0.964286 | 0.972973 |
アストゥリアス語 (ast) | 0.964912 | 0.982143 | 0.973451 |
アヴァル語 (ava) | 0.941176 | 0.905660 | 0.923077 |
アイマラ語 (aym) | 0.964912 | 0.982143 | 0.973451 |
南アゼルバイジャン語 (azb) | 0.965517 | 1.000000 | 0.982456 |
アゼルバイジャン語 (aze) | 1.000000 | 1.000000 | 1.000000 |
バシキール語 (bak) | 1.000000 | 0.978261 | 0.989011 |
バイエルン語 (bar) | 0.843750 | 0.964286 | 0.900000 |
中ビコル語 (bcl) | 1.000000 | 0.982143 | 0.990991 |
白ロシア語(伝統的表記法) (be-tarask) | 1.000000 | 0.875000 | 0.933333 |
白ロシア語 (bel) | 0.870968 | 0.964286 | 0.915254 |
ベンガル語 (ben) | 0.982143 | 0.982143 | 0.982143 |
ボジプール語 (bho) | 1.000000 | 0.928571 | 0.962963 |
バンジャール語 (bjn) | 0.981132 | 0.945455 | 0.962963 |
チベット語 (bod) | 1.000000 | 0.982143 | 0.990991 |
ボスニア語 (bos) | 0.552632 | 0.375000 | 0.446809 |
ビシュヌプレイヤ語 (bpy) | 1.000000 | 0.982143 | 0.990991 |
ブルトン語 (bre) | 1.000000 | 0.964286 | 0.981818 |
ブルガリア語 (bul) | 1.000000 | 0.964286 | 0.981818 |
ブリヤート語 (bxr) | 0.946429 | 0.946429 | 0.946429 |
カタルーニャ語 (cat) | 0.982143 | 0.982143 | 0.982143 |
チャバカノ語 (cbk) | 0.914894 | 0.767857 | 0.834951 |
閩東語 (cdo) | 1.000000 | 0.982143 | 0.990991 |
セブ語 (ceb) | 1.000000 | 1.000000 | 1.000000 |
チェコ語 (ces) | 1.000000 | 1.000000 | 1.000000 |
チェチェン語 (che) | 1.000000 | 1.000000 | 1.000000 |
チェロキー語 (chr) | 1.000000 | 0.963636 | 0.981481 |
チュワシ語 (chv) | 0.938776 | 0.958333 | 0.948454 |
中央クルド語 (ckb) | 1.000000 | 1.000000 | 1.000000 |
コーンウォール語 (cor) | 1.000000 | 1.000000 | 1.000000 |
コルシカ語 (cos) | 1.000000 | 0.982143 | 0.990991 |
クリミア・タタール語 (crh) | 1.000000 | 0.946429 | 0.972477 |
カシュービ語 (csb) | 1.000000 | 0.963636 | 0.981481 |
ウェールズ語 (cym) | 1.000000 | 1.000000 | 1.000000 |
デンマーク語 (dan) | 1.000000 | 1.000000 | 1.000000 |
ドイツ語 (deu) | 0.828125 | 0.946429 | 0.883333 |
ディムリ語 (diq) | 0.964912 | 0.982143 | 0.973451 |
ディヴィヒ語 (div) | 1.000000 | 1.000000 | 1.000000 |
下ソルブ語 (dsb) | 1.000000 | 0.982143 | 0.990991 |
ドタイリ語 (dty) | 0.940000 | 0.854545 | 0.895238 |
エミリア語 (egl) | 1.000000 | 0.928571 | 0.962963 |
現代ギリシャ語 (ell) | 1.000000 | 1.000000 | 1.000000 |
英語 (eng) | 0.588889 | 0.946429 | 0.726027 |
エスペラント語 (epo) | 1.000000 | 0.982143 | 0.990991 |
エストニア語 (est) | 0.963636 | 0.946429 | 0.954955 |
バスク語 (eus) | 1.000000 | 0.982143 | 0.990991 |
エストレマドゥーラ語 (ext) | 0.982143 | 0.982143 | 0.982143 |
フェロー語 (fao) | 1.000000 | 1.000000 | 1.000000 |
ペルシャ語 (fas) | 0.948276 | 0.982143 | 0.964912 |
フィンランド語 (fin) | 1.000000 | 1.000000 | 1.000000 |
フランス語 (fra) | 0.710145 | 0.875000 | 0.784000 |
フランク・プロヴァンス語 (frp) | 1.000000 | 0.946429 | 0.972477 |
西フリジア語 (fry) | 0.982143 | 0.982143 | 0.982143 |
フリウリ語 (fur) | 1.000000 | 0.982143 | 0.990991 |
ガゴーツ語 (gag) | 0.981132 | 0.945455 | 0.962963 |
スコットランド・ゲール語 (gla) | 0.982143 | 0.982143 | 0.982143 |
アイルランド語 (gle) | 0.949153 | 1.000000 | 0.973913 |
ガリシア語 (glg) | 1.000000 | 1.000000 | 1.000000 |
ギラキ語 (glk) | 0.981132 | 0.945455 | 0.962963 |
マン島語 (glv) | 1.000000 | 1.000000 | 1.000000 |
グアラニー語 (grn) | 1.000000 | 0.964286 | 0.981818 |
グジャラート語 (guj) | 1.000000 | 0.982143 | 0.990991 |
客家語 (hak) | 0.981818 | 0.964286 | 0.972973 |
ハイチ・クレオール語 (hat) | 1.000000 | 1.000000 | 1.000000 |
ハウサ語 (hau) | 1.000000 | 0.945455 | 0.971963 |
セルビア・クロアチア語 (hbs) | 0.448276 | 0.464286 | 0.456140 |
ヘブライ語 (heb) | 1.000000 | 0.982143 | 0.990991 |
フィジー・ヒンディー語 (hif) | 0.890909 | 0.890909 | 0.890909 |
ヒンディー語 (hin) | 0.981481 | 0.946429 | 0.963636 |
クロアチア語 (hrv) | 0.500000 | 0.636364 | 0.560000 |
上ソルブ語 (hsb) | 0.955556 | 1.000000 | 0.977273 |
ハンガリー語 (hun) | 1.000000 | 1.000000 | 1.000000 |
アルメニア語 (hye) | 1.000000 | 0.981818 | 0.990826 |
イボ語 (ibo) | 0.918033 | 1.000000 | 0.957265 |
イド語 (ido) | 1.000000 | 1.000000 | 1.000000 |
国際語E (ile) | 1.000000 | 0.962264 | 0.980769 |
イロカノ語 (ilo) | 0.947368 | 0.964286 | 0.955752 |
国際語A (ina) | 1.000000 | 1.000000 | 1.000000 |
インドネシア語 (ind) | 0.761905 | 0.872727 | 0.813559 |
アイスランド語 (isl) | 1.000000 | 1.000000 | 1.000000 |
イタリア語 (ita) | 0.861538 | 1.000000 | 0.925620 |
ジャマイカ・クレオール語 (jam) | 1.000000 | 0.946429 | 0.972477 |
ジャワ語 (jav) | 0.964912 | 0.982143 | 0.973451 |
ロジバン語 (jbo) | 1.000000 | 1.000000 | 1.000000 |
日本語 (jpn) | 1.000000 | 1.000000 | 1.000000 |
カラカルパク語 (kaa) | 0.965517 | 1.000000 | 0.982456 |
カバイル語 (kab) | 1.000000 | 0.964286 | 0.981818 |
カンナダ語 (kan) | 0.982143 | 0.982143 | 0.982143 |
グルジア語 (kat) | 1.000000 | 0.964286 | 0.981818 |
カザフ語 (kaz) | 0.980769 | 0.980769 | 0.980769 |
カバルダ語 (kbd) | 1.000000 | 0.982143 | 0.990991 |
クメール語 (khm) | 0.960784 | 0.875000 | 0.915888 |
ルワンダ語 (kin) | 0.981132 | 0.928571 | 0.954128 |
キルギス語 (kir) | 1.000000 | 1.000000 | 1.000000 |
コミ・ペルミャク語 (koi) | 0.962264 | 0.910714 | 0.935780 |
コンカニー語 (kok) | 0.964286 | 0.981818 | 0.972973 |
コミ語 (kom) | 1.000000 | 0.962264 | 0.980769 |
韓国語 (kor) | 1.000000 | 1.000000 | 1.000000 |
カラチャイ・バルカール語 (krc) | 1.000000 | 0.982143 | 0.990991 |
リプアリアン語 (ksh) | 1.000000 | 0.964286 | 0.981818 |
クルド語 (kur) | 1.000000 | 0.964286 | 0.981818 |
ラディーノ語 (lad) | 1.000000 | 1.000000 | 1.000000 |
ラオス語 (lao) | 0.961538 | 0.909091 | 0.934579 |
ラテン語 (lat) | 0.877193 | 0.943396 | 0.909091 |
ラトビア語 (lav) | 0.963636 | 0.946429 | 0.954955 |
レズギン語 (lez) | 1.000000 | 0.964286 | 0.981818 |
リグリア語 (lij) | 1.000000 | 0.964286 | 0.981818 |
リンブルグ語 (lim) | 0.938776 | 1.000000 | 0.968421 |
リンガラ語 (lin) | 0.980769 | 0.927273 | 0.953271 |
リトアニア語 (lit) | 0.982456 | 1.000000 | 0.991150 |
ロンバルド語 (lmo) | 1.000000 | 1.000000 | 1.000000 |
北ルーリ語 (lrc) | 1.000000 | 0.928571 | 0.962963 |
ラトガレ語 (ltg) | 1.000000 | 0.982143 | 0.990991 |
ルクセンブルク語 (ltz) | 0.949153 | 1.000000 | 0.973913 |
ルガンダ語 (lug) | 1.000000 | 1.000000 | 1.000000 |
文言文 (lzh) | 1.000000 | 1.000000 | 1.000000 |
マイティリー語 (mai) | 0.931034 | 0.964286 | 0.947368 |
マラヤーラム語 (mal) | 1.000000 | 0.982143 | 0.990991 |
マドゥラ語 (map-bms) | 0.977778 | 0.785714 | 0.871287 |
マラーティー語 (mar) | 0.949153 | 1.000000 | 0.973913 |
モクシャ語 (mdf) | 0.980000 | 0.890909 | 0.933333 |
東マリ語 (mhr) | 0.981818 | 0.964286 | 0.972973 |
ミナンカバウ語 (min) | 1.000000 | 1.000000 | 1.000000 |
マケドニア語 (mkd) | 1.000000 | 0.981818 | 0.990826 |
マダガスカル語 (mlg) | 0.981132 | 1.000000 | 0.990476 |
マルタ語 (mlt) | 0.982456 | 1.000000 | 0.991150 |
閩南語 (nan) | 1.000000 | 1.000000 | 1.000000 |
モンゴル語 (mon) | 1.000000 | 0.981818 | 0.990826 |
マオリ語 (mri) | 1.000000 | 1.000000 | 1.000000 |
西マリ語 (mrj) | 0.982456 | 1.000000 | 0.991150 |
マレー語 (msa) | 0.862069 | 0.892857 | 0.877193 |
ミランデス語 (mwl) | 1.000000 | 0.982143 | 0.990991 |
ミャンマー語 (mya) | 1.000000 | 1.000000 | 1.000000 |
エルザ語 (myv) | 0.818182 | 0.964286 | 0.885246 |
マザンダラン語 (mzn) | 0.981481 | 1.000000 | 0.990654 |
ナポリ語 (nap) | 1.000000 | 0.981818 | 0.990826 |
ナバホ語 (nav) | 1.000000 | 1.000000 | 1.000000 |
古典ナワトル語 (nci) | 0.981481 | 0.946429 | 0.963636 |
低地ドイツ語 (nds) | 0.982143 | 0.982143 | 0.982143 |
西低地ドイツ語 (nds-nl) | 1.000000 | 1.000000 | 1.000000 |
ネパール語(マクロ言語) (nep) | 0.881356 | 0.928571 | 0.904348 |
ニワール語 (new) | 1.000000 | 0.909091 | 0.952381 |
オランダ語 (nld) | 0.982143 | 0.982143 | 0.982143 |
新ノルウェー語 (nno) | 1.000000 | 1.000000 | 1.000000 |
書面ノルウェー語 (nob) | 1.000000 | 1.000000 | 1.000000 |
ノルマン語 (nrm) | 0.981818 | 0.964286 | 0.972973 |
北ソト語 (nso) | 1.000000 | 1.000000 | 1.000000 |
オック語 (oci) | 0.903846 | 0.839286 | 0.870370 |
リヴィ・カレリア語 (olo) | 0.982456 | 1.000000 | 0.991150 |
オリヤ語 (ori) | 0.964912 | 0.982143 | 0.973451 |
オロモ語 (orm) | 0.982143 | 0.982143 | 0.982143 |
オセット語 (oss) | 0.982143 | 1.000000 | 0.990991 |
パガンシナン語 (pag) | 0.980000 | 0.875000 | 0.924528 |
パンパンガ語 (pam) | 0.928571 | 0.896552 | 0.912281 |
パンジャブ語 (pan) | 1.000000 | 1.000000 | 1.000000 |
パピアメントゥ語 (pap) | 1.000000 | 0.964286 | 0.981818 |
ピカルディー語 (pcd) | 0.849057 | 0.849057 | 0.849057 |
ペンシルベニア・ドイツ語 (pdc) | 0.854839 | 0.946429 | 0.898305 |
プファルツ・ドイツ語 (pfl) | 0.946429 | 0.946429 | 0.946429 |
西パンジャブ語 (pnb) | 0.981132 | 0.962963 | 0.971963 |
ポーランド語 (pol) | 0.933333 | 1.000000 | 0.965517 |
ポルトガル語 (por) | 0.774648 | 0.982143 | 0.866142 |
プシュトー語 (pus) | 1.000000 | 0.910714 | 0.953271 |
ケチュア語 (que) | 0.962963 | 0.928571 | 0.945455 |
タラント方言 (roa-tara) | 1.000000 | 0.964286 | 0.981818 |
ロマンシュ語 (roh) | 1.000000 | 0.928571 | 0.962963 |
ルーマニア語 (ron) | 0.965517 | 1.000000 | 0.982456 |
ルセニア語 (rue) | 0.946429 | 0.946429 | 0.946429 |
アルムール・ルーマニア語 (rup) | 0.962963 | 0.928571 | 0.945455 |
ロシア語 (rus) | 0.859375 | 0.982143 | 0.916667 |
ヤクート語 (sah) | 1.000000 | 0.982143 | 0.990991 |
サンスクリット語 (san) | 0.982143 | 0.982143 | 0.982143 |
シチリア語 (scn) | 1.000000 | 1.000000 | 1.000000 |
スコットランド語 (sco) | 0.982143 | 0.982143 | 0.982143 |
サモギティア語 (sgs) | 1.000000 | 0.982143 | 0.990991 |
シンハラ語 (sin) | 0.964912 | 0.982143 | 0.973451 |
スロバキア語 (slk) | 1.000000 | 0.982143 | 0.990991 |
スロベニア語 (slv) | 1.000000 | 0.981818 | 0.990826 |
北サーミ語 (sme) | 0.962264 | 0.962264 | 0.962264 |
ショナ語 (sna) | 0.933333 | 1.000000 | 0.965517 |
シンド語 (snd) | 1.000000 | 1.000000 | 1.000000 |
ソマリ語 (som) | 0.948276 | 1.000000 | 0.973451 |
スペイン語 (spa) | 0.739130 | 0.910714 | 0.816000 |
アルバニア語 (sqi) | 0.982143 | 0.982143 | 0.982143 |
サルデーニャ語 (srd) | 1.000000 | 0.982143 | 0.990991 |
スリナム語 (srn) | 1.000000 | 1.000000 | 1.000000 |
セルビア語 (srp) | 1.000000 | 0.946429 | 0.972477 |
サッター・フリジア語 (stq) | 1.000000 | 0.964286 | 0.981818 |
スンダ語 (sun) | 1.000000 | 0.977273 | 0.988506 |
スワヒリ語(マクロ言語) (swa) | 1.000000 | 1.000000 | 1.000000 |
📄 ライセンス
このプロジェクトは、Apache 2.0ライセンスの下でライセンスされています。
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
DistilBERT - base - uncasedをベースに、SST - 2感情分析データセットで微調整されたテキスト分類モデル。正解率91.3%
テキスト分類 English
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
XLM-RoBERTaベースの多言語検出モデル、20言語のテキスト分類をサポート
テキスト分類
Transformers Supports Multiple Languages

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
このモデルは動的データセット生成を通じてオンライン憎悪検出を改善し、検出効果を高めるために最悪ケースから学習することに焦点を当てています。
テキスト分類
Transformers English

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
bert-base-multilingual-uncasedを微調整した多言語感情分析モデルで、6言語の商品レビューの感情分析に対応しています。
テキスト分類 Supports Multiple Languages
B
nlptown
1.8M
371
Emotion English Distilroberta Base
DistilRoBERTa-baseをファインチューニングした英語テキストの感情分類モデルで、エクマンの6基本感情と中立カテゴリを予測可能。
テキスト分類
Transformers English

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
RoBERTuitoベースのスペイン語ツイート感情分析モデル、POS(ポジティブ)/NEG(ネガティブ)/NEU(ニュートラル)の3分類に対応
テキスト分類 Spanish
R
pysentimiento
1.0M
88
Finbert Tone
FinBERTは金融通信テキストを元に事前学習されたBERTモデルで、金融自然言語処理分野に特化しています。finbert-toneはその微調整バージョンで、金融感情分析タスクに使用されます。
テキスト分類
Transformers English

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
RoBERTa-baseに基づく多ラベル感情分類モデルで、go_emotionsデータセットで訓練され、28種類の感情ラベル識別をサポートします。
テキスト分類
Transformers English

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMOはXLM-Tモデルをファインチューニングした多言語感情分析モデルで、19言語をサポートし、特にソーシャルメディアテキストの感情予測に特化しています。
テキスト分類
Transformers Other

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
MultiNLI、Fever-NLI、ANLIのデータセットを用いて訓練されたDeBERTa-v3モデルで、ゼロショット分類と自然言語推論タスクに優れています。
テキスト分類
Transformers English

D
MoritzLaurer
613.93k
204
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98