Span Marker Mbert Base Multinerd
これはMultiNERDデータセットで訓練された多言語固有表現認識モデルで、20以上の言語をサポートし、bert-base-multilingual-casedを基盤エンコーダーとして使用しています。
ダウンロード数 5,591
リリース時間 : 8/7/2023
モデル概要
このモデルは多言語固有表現認識タスクに使用され、テキスト中の人物、組織、場所などの様々なエンティティタイプを識別できます。
モデル特徴
多言語サポート
20以上の言語の固有表現認識をサポート
高精度
MultiNERDテストセットでF1スコア0.92478を達成
広範なエンティティタイプカバレッジ
人物、組織、場所、動物、病気など18種類の異なるエンティティを識別可能
モデル能力
多言語テキスト分析
固有表現認識
エンティティ分類
使用事例
テキスト分析
多言語ニュース分析
多言語ニューステキストから主要なエンティティを抽出
異なる言語のテキスト中の人物、組織、場所などのエンティティを正確に識別可能
言語間情報抽出
多言語ドキュメントから構造化情報を抽出
20以上の言語のエンティティ認識をサポートし、言語間情報統合を容易にする
🚀 マルチリンガル固有表現認識のためのSpanMarker
このモデルは、MultiNERDデータセットで学習された、マルチリンガル固有表現認識に使用できるSpanMarkerモデルです。具体的には、このSpanMarkerモデルはbert-base-multilingual-casedを基盤となるエンコーダーとして使用しています。学習スクリプトについては、train.pyを参照してください。
あなたのデータの大文字と小文字が正しく設定されていない場合、@lxyuanによるこのモデルの大文字小文字を区別しないバリアントを使用することを検討してください。これにより、より良いパフォーマンスが得られます。 lxyuan/span-marker-bert-base-multilingual-uncased-multinerd
✨ 主な機能
- マルチリンガルの固有表現認識を行うことができます。
- 複数の言語に対応しており、多言語環境での固有表現認識に適しています。
📦 インストール
このモデルを推論に使用するには、まずspan_marker
ライブラリをインストールします。
pip install span_marker
💻 使用例
基本的な使用法
from span_marker import SpanMarkerModel
# 🤗 Hubからダウンロード
model = SpanMarkerModel.from_pretrained("tomaarsen/span-marker-mbert-base-multinerd")
# 推論を実行
entities = model.predict("Amelia Earhart flew her single engine Lockheed Vega 5B across the Atlantic to Paris.")
このライブラリのドキュメントや追加情報については、SpanMarkerリポジトリを参照してください。
📚 詳細ドキュメント
メトリクス
言語 | 精度 | 再現率 | F1値 |
---|---|---|---|
すべて | 93.39 | 91.59 | 92.48 |
ドイツ語 | 95.21 | 94.32 | 94.76 |
英語 | 95.07 | 95.29 | 95.18 |
スペイン語 | 93.50 | 89.65 | 91.53 |
フランス語 | 93.86 | 90.07 | 91.92 |
イタリア語 | 91.63 | 93.57 | 92.59 |
オランダ語 | 94.86 | 91.74 | 93.27 |
ポーランド語 | 93.51 | 91.83 | 92.66 |
ポルトガル語 | 94.48 | 91.30 | 92.86 |
ロシア語 | 93.70 | 93.10 | 93.39 |
中国語 | 88.36 | 85.71 | 87.02 |
ラベルセット
クラス | 説明 | 例 |
---|---|---|
PER (人物) | 人物 | Ray Charles、Jessica Alba、Leonardo DiCaprio、Roger Federer、Anna Massey。 |
ORG (組織) | 協会、会社、機関、機関、国籍、宗教または政治グループ | University of Edinburgh、San Francisco Giants、Google、Democratic Party。 |
LOC (場所) | 物理的な場所(例:山、水域)、地理政治的なエンティティ(例:都市、州)、施設(例:橋、建物、空港)。 | Rome、Lake Paiku、Chrysler Building、Mount Rushmore、Mississippi River。 |
ANIM (動物) | 犬、猫、その他の動物の品種、科学名を含む。 | Maine Coon、African Wild Dog、Great White Shark、New Zealand Bellbird。 |
BIO (生物学的) | 真菌、細菌、原生生物の属、ウイルスの科、その他の生物学的エンティティ。 | Herpes Simplex Virus、Escherichia Coli、Salmonella、Bacillus Anthracis。 |
CEL (天体) | 惑星、恒星、小惑星、彗星、星雲、銀河、その他の天体。 | Sun、Neptune、Asteroid 187 Lamberta、Proxima Centauri、V838 Monocerotis。 |
DIS (病気) | 身体的、精神的、感染性、非感染性、欠乏性、遺伝性、変性、社会的、自己誘発性の病気。 | Alzheimer’s Disease、Cystic Fibrosis、Dilated Cardiomyopathy、Arthritis。 |
EVE (イベント) | スポーツイベント、戦い、戦争、その他のイベント。 | American Civil War、2003 Wimbledon Championships、Cannes Film Festival。 |
FOOD (食べ物) | 食べ物と飲み物。 | Carbonara、Sangiovese、Cheddar Beer Fondue、Pizza Margherita。 |
INST (器具) | 技術器具、機械器具、楽器、その他の道具。 | Spitzer Space Telescope、Commodore 64、Skype、Apple Watch、Fender Stratocaster。 |
MEDIA (メディア) | 映画、本、雑誌、歌、アルバムのタイトル、架空のキャラクター、言語。 | Forbes、American Psycho、Kiss Me Once、Twin Peaks、Disney Adventures。 |
PLANT (植物) | 木、花、その他の植物の種類、科学名を含む。 | Salix、Quercus Petraea、Douglas Fir、Forsythia、Artemisia Maritima。 |
MYTH (神話的) | 神話的および宗教的エンティティ。 | Apollo、Persephone、Aphrodite、Saint Peter、Pope Gregory I、Hercules。 |
TIME (時間) | 特定の明確な時間間隔、時代、歴史的時代、世紀、年、重要な日など。月と曜日は含まれません。 | Renaissance、Middle Ages、Christmas、Great Depression、17th Century、2012。 |
VEHI (乗り物) | 車、バイク、その他の乗り物。 | Ferrari Testarossa、Suzuki Jimny、Honda CR - X、Boeing 747、Fairey Fulmar。 |
🔧 技術詳細
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- 学習率: 5e - 05
- 学習バッチサイズ: 32
- 評価バッチサイズ: 32
- シード: 42
- オプティマイザ: Adam(ベータ=(0.9, 0.999)、イプシロン=1e - 08)
- 学習率スケジューラの種類: 線形
- 学習率スケジューラのウォームアップ率: 0.1
- エポック数: 1
学習結果
学習損失 | エポック | ステップ | 検証損失 | 全体精度 | 全体再現率 | 全体F1値 | 全体正解率 |
---|---|---|---|---|---|---|---|
0.0179 | 0.01 | 1000 | 0.0146 | 0.8101 | 0.7616 | 0.7851 | 0.9530 |
0.0099 | 0.02 | 2000 | 0.0091 | 0.8571 | 0.8425 | 0.8498 | 0.9663 |
0.0085 | 0.03 | 3000 | 0.0078 | 0.8729 | 0.8579 | 0.8653 | 0.9700 |
0.0075 | 0.04 | 4000 | 0.0072 | 0.8821 | 0.8724 | 0.8772 | 0.9739 |
0.0074 | 0.05 | 5000 | 0.0075 | 0.8622 | 0.8841 | 0.8730 | 0.9722 |
0.0074 | 0.06 | 6000 | 0.0067 | 0.9056 | 0.8568 | 0.8805 | 0.9749 |
0.0066 | 0.07 | 7000 | 0.0065 | 0.9082 | 0.8543 | 0.8804 | 0.9737 |
0.0063 | 0.08 | 8000 | 0.0066 | 0.9039 | 0.8617 | 0.8823 | 0.9745 |
0.0062 | 0.09 | 9000 | 0.0062 | 0.9323 | 0.8425 | 0.8852 | 0.9754 |
0.007 | 0.1 | 10000 | 0.0066 | 0.8898 | 0.8758 | 0.8827 | 0.9746 |
0.006 | 0.11 | 11000 | 0.0061 | 0.8986 | 0.8841 | 0.8913 | 0.9766 |
0.006 | 0.12 | 12000 | 0.0061 | 0.9171 | 0.8628 | 0.8891 | 0.9763 |
0.0062 | 0.13 | 13000 | 0.0060 | 0.9264 | 0.8634 | 0.8938 | 0.9772 |
0.0059 | 0.14 | 14000 | 0.0059 | 0.9323 | 0.8508 | 0.8897 | 0.9763 |
0.0059 | 0.15 | 15000 | 0.0060 | 0.9011 | 0.8815 | 0.8912 | 0.9758 |
0.0059 | 0.16 | 16000 | 0.0060 | 0.9221 | 0.8598 | 0.8898 | 0.9763 |
0.0056 | 0.17 | 17000 | 0.0058 | 0.9098 | 0.8839 | 0.8967 | 0.9775 |
0.0055 | 0.18 | 18000 | 0.0060 | 0.9103 | 0.8739 | 0.8917 | 0.9765 |
0.0054 | 0.19 | 19000 | 0.0056 | 0.9135 | 0.8726 | 0.8925 | 0.9774 |
0.0052 | 0.2 | 20000 | 0.0058 | 0.9108 | 0.8834 | 0.8969 | 0.9773 |
0.0053 | 0.21 | 21000 | 0.0058 | 0.9038 | 0.8866 | 0.8951 | 0.9773 |
0.0057 | 0.22 | 22000 | 0.0057 | 0.9130 | 0.8762 | 0.8942 | 0.9775 |
0.0056 | 0.23 | 23000 | 0.0053 | 0.9375 | 0.8604 | 0.8973 | 0.9781 |
0.005 | 0.24 | 24000 | 0.0054 | 0.9253 | 0.8822 | 0.9032 | 0.9784 |
0.0055 | 0.25 | 25000 | 0.0055 | 0.9182 | 0.8807 | 0.8991 | 0.9787 |
0.0049 | 0.26 | 26000 | 0.0053 | 0.9311 | 0.8702 | 0.8997 | 0.9783 |
0.0051 | 0.27 | 27000 | 0.0054 | 0.9192 | 0.8877 | 0.9032 | 0.9787 |
0.0051 | 0.28 | 28000 | 0.0053 | 0.9332 | 0.8783 | 0.9049 | 0.9795 |
0.0049 | 0.29 | 29000 | 0.0054 | 0.9311 | 0.8672 | 0.8981 | 0.9789 |
0.0047 | 0.3 | 30000 | 0.0054 | 0.9165 | 0.8954 | 0.9058 | 0.9796 |
0.005 | 0.31 | 31000 | 0.0052 | 0.9079 | 0.9016 | 0.9047 | 0.9787 |
0.0051 | 0.32 | 32000 | 0.0051 | 0.9157 | 0.9001 | 0.9078 | 0.9796 |
0.0046 | 0.33 | 33000 | 0.0051 | 0.9147 | 0.8935 | 0.9040 | 0.9788 |
0.0046 | 0.34 | 34000 | 0.0050 | 0.9229 | 0.8847 | 0.9034 | 0.9793 |
0.005 | 0.35 | 35000 | 0.0051 | 0.9198 | 0.8922 | 0.9058 | 0.9796 |
0.0047 | 0.36 | 36000 | 0.0050 | 0.9321 | 0.8890 | 0.9100 | 0.9807 |
0.0048 | 0.37 | 37000 | 0.0050 | 0.9046 | 0.9133 | 0.9089 | 0.9800 |
0.0046 | 0.38 | 38000 | 0.0051 | 0.9170 | 0.8973 | 0.9071 | 0.9806 |
0.0048 | 0.39 | 39000 | 0.0050 | 0.9417 | 0.8775 | 0.9084 | 0.9805 |
0.0042 | 0.4 | 40000 | 0.0049 | 0.9238 | 0.8937 | 0.9085 | 0.9797 |
0.0038 | 0.41 | 41000 | 0.0048 | 0.9371 | 0.8920 | 0.9140 | 0.9812 |
0.0042 | 0.42 | 42000 | 0.0048 | 0.9359 | 0.8862 | 0.9104 | 0.9808 |
0.0051 | 0.43 | 43000 | 0.0049 | 0.9080 | 0.9060 | 0.9070 | 0.9805 |
0.0037 | 0.44 | 44000 | 0.0049 | 0.9328 | 0.8877 | 0.9097 | 0.9801 |
0.0041 | 0.45 | 45000 | 0.0049 | 0.9231 | 0.8975 | 0.9101 | 0.9813 |
0.0046 | 0.46 | 46000 | 0.0046 | 0.9308 | 0.8943 | 0.9122 | 0.9812 |
0.0038 | 0.47 | 47000 | 0.0047 | 0.9291 | 0.8969 | 0.9127 | 0.9815 |
0.0043 | 0.48 | 48000 | 0.0046 | 0.9311 | 0.8963 | 0.9136 | 0.9817 |
0.0042 | 0.49 | 49000 | 0.0047 | 0.9301 | 0.8956 | 0.9128 | 0.9816 |
0.0041 | 0.5 | 50000 | 0.0047 | 0.9311 | 0.8949 | 0.9124 | 0.9815 |
📄 ライセンス
このモデルは、CC - BY - NC - SA 4.0ライセンスの下で提供されています。
Indonesian Roberta Base Posp Tagger
MIT
これはインドネシア語RoBERTaモデルをファインチューニングした品詞タグ付けモデルで、indonluデータセットで訓練され、インドネシア語テキストの品詞タグ付けタスクに使用されます。
シーケンスラベリング
Transformers その他

I
w11wo
2.2M
7
Bert Base NER
MIT
BERTを微調整した命名エンティティ識別モデルで、4種類のエンティティ(場所(LOC)、組織(ORG)、人名(PER)、その他(MISC))を識別できます。
シーケンスラベリング 英語
B
dslim
1.8M
592
Deid Roberta I2b2
MIT
このモデルはRoBERTaをファインチューニングしたシーケンスラベリングモデルで、医療記録内の保護対象健康情報(PHI/PII)を識別・除去します。
シーケンスラベリング
Transformers 複数言語対応

D
obi
1.1M
33
Ner English Fast
Flairに組み込まれた英語の高速4クラス固有表現認識モデルで、Flair埋め込みとLSTM-CRFアーキテクチャを使用し、CoNLL-03データセットで92.92のF1スコアを達成しています。
シーケンスラベリング
PyTorch 英語
N
flair
978.01k
24
French Camembert Postag Model
Camembert-baseをベースとしたフランス語の品詞タグ付けモデルで、free-french-treebankデータセットを使用して学習されました。
シーケンスラベリング
Transformers フランス語

F
gilf
950.03k
9
Xlm Roberta Large Ner Spanish
XLM - Roberta - largeアーキテクチャに基づいて微調整されたスペイン語の命名エンティティ認識モデルで、CoNLL - 2002データセットで優れた性能を発揮します。
シーケンスラベリング
Transformers スペイン語

X
MMG
767.35k
29
Nusabert Ner V1.3
MIT
NusaBert-v1.3を基にインドネシア語NERタスクでファインチューニングした固有表現認識モデル
シーケンスラベリング
Transformers その他

N
cahya
759.09k
3
Ner English Large
Flairフレームワークに組み込まれた英語の4種類の大型NERモデルで、文書レベルのXLM - R埋め込みとFLERT技術に基づいており、CoNLL - 03データセットでF1スコアが94.36に達します。
シーケンスラベリング
PyTorch 英語
N
flair
749.04k
44
Punctuate All
MIT
xlm - roberta - baseを微調整した多言語句読点予測モデルで、12種類の欧州言語の句読点自動補完に対応しています。
シーケンスラベリング
Transformers

P
kredor
728.70k
20
Xlm Roberta Ner Japanese
MIT
xlm-roberta-baseをファインチューニングした日本語固有表現認識モデル
シーケンスラベリング
Transformers 複数言語対応

X
tsmatz
630.71k
25
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98