🚀 ScandiNER - スカンジナビア諸言語向け固有表現認識モデル
このモデルのデモはこちらで確認できます。
このモデルは、デンマーク語、ノルウェー語(ボクモールとニュノルスクの両方)、スウェーデン語、アイスランド語、フェロー諸島語の固有表現認識のために、NbAiLab/nb-bert-baseをファインチューニングしたバージョンです。DaNE、NorNE、SUC 3.0、およびWikiANNデータセットのアイスランド語とフェロー諸島語の部分を連結したデータでファインチューニングされています。事前学習モデルがスカンジナビア諸言語とともに英語データでも学習されていることから、英語の文に対しても妥当な結果を得ることができます。
このモデルは以下の4つのエンティティを予測します。
タグ |
名称 |
説明 |
PER |
人物 |
人物の名前(例:Birgitte や Mohammed) |
LOC |
場所 |
場所の名前(例:Tyskland や Djurgården) |
ORG |
組織 |
組織の名前(例:Bunnpris や Landsbankinn) |
MISC |
その他 |
その他の種類の固有表現(例:Ūjķnustu pund や Mona Lisa) |
🚀 クイックスタート
このモデルは以下のようにスクリプトで使用できます。
基本的な使用法
>>> from transformers import pipeline
>>> import pandas as pd
>>> ner = pipeline(task='ner',
... model='saattrupdan/nbailab-base-ner-scandi',
... aggregation_strategy='first')
>>> result = ner('Borghild kjøper seg inn i Bunnpris')
>>> pd.DataFrame.from_records(result)
entity_group score word start end
0 PER 0.981257 Borghild 0 8
1 ORG 0.974099 Bunnpris 26 34
✨ 主な機能
性能
以下は、スカンジナビアの固有表現認識テストデータセットにおけるMicro-F1 NER性能で、現在の最先端技術と比較した結果です。モデルはテストセットとそのブートストラップバージョン9つで評価されており、ここには平均値と95%信頼区間が示されています。
モデルID |
DaNE |
NorNE-NB |
NorNE-NN |
SUC 3.0 |
WikiANN-IS |
WikiANN-FO |
平均 |
saattrupdan/nbailab-base-ner-scandi |
87.44 ± 0.81 |
91.06 ± 0.26 |
90.42 ± 0.61 |
88.37 ± 0.17 |
88.61 ± 0.41 |
90.22 ± 0.46 |
89.08 ± 0.46 |
chcaa/da_dacy_large_trf |
83.61 ± 1.18 |
78.90 ± 0.49 |
72.62 ± 0.58 |
53.35 ± 0.17 |
50.57 ± 0.46 |
51.72 ± 0.52 |
63.00 ± 0.57 |
RecordedFuture/Swedish-NER |
64.09 ± 0.97 |
61.74 ± 0.50 |
56.67 ± 0.79 |
66.60 ± 0.27 |
34.54 ± 0.73 |
42.16 ± 0.83 |
53.32 ± 0.69 |
Maltehb/danish-bert-botxo-ner-dane |
69.25 ± 1.17 |
60.57 ± 0.27 |
35.60 ± 1.19 |
38.37 ± 0.26 |
21.00 ± 0.57 |
27.88 ± 0.48 |
40.92 ± 0.64 |
Maltehb/-l-ctra-danish-electra-small-uncased-ner-dane |
70.41 ± 1.19 |
48.76 ± 0.70 |
27.58 ± 0.61 |
35.39 ± 0.38 |
26.22 ± 0.52 |
28.30 ± 0.29 |
39.70 ± 0.61 |
radbrt/nb_nocy_trf |
56.82 ± 1.63 |
68.20 ± 0.75 |
69.22 ± 1.04 |
31.63 ± 0.29 |
20.32 ± 0.45 |
12.91 ± 0.50 |
38.08 ± 0.75 |
このモデルは、高い精度に加えて、以前の最先端技術と比較して大幅に小さく、高速です。
モデルID |
サンプル/秒 |
モデルサイズ |
saattrupdan/nbailab-base-ner-scandi |
4.16 ± 0.18 |
676 MB |
chcaa/da_dacy_large_trf |
0.65 ± 0.01 |
2,090 MB |
🔧 技術詳細
学習手順
学習ハイパーパラメータ
学習中に以下のハイパーパラメータが使用されました。
- learning_rate: 2e-05
- train_batch_size: 8
- eval_batch_size: 8
- seed: 42
- gradient_accumulation_steps: 4
- total_train_batch_size: 32
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 90135.90000000001
- num_epochs: 1000
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
Micro F1 |
Micro F1(MISCを除く) |
0.6682 |
1.0 |
2816 |
0.0872 |
0.6916 |
0.7306 |
0.0684 |
2.0 |
5632 |
0.0464 |
0.8167 |
0.8538 |
0.0444 |
3.0 |
8448 |
0.0367 |
0.8485 |
0.8783 |
0.0349 |
4.0 |
11264 |
0.0316 |
0.8684 |
0.8920 |
0.0282 |
5.0 |
14080 |
0.0290 |
0.8820 |
0.9033 |
0.0231 |
6.0 |
16896 |
0.0283 |
0.8854 |
0.9060 |
0.0189 |
7.0 |
19712 |
0.0253 |
0.8964 |
0.9156 |
0.0155 |
8.0 |
22528 |
0.0260 |
0.9016 |
0.9201 |
0.0123 |
9.0 |
25344 |
0.0266 |
0.9059 |
0.9233 |
0.0098 |
10.0 |
28160 |
0.0280 |
0.9091 |
0.9279 |
0.008 |
11.0 |
30976 |
0.0309 |
0.9093 |
0.9287 |
0.0065 |
12.0 |
33792 |
0.0313 |
0.9103 |
0.9284 |
0.0053 |
13.0 |
36608 |
0.0322 |
0.9078 |
0.9257 |
0.0046 |
14.0 |
39424 |
0.0343 |
0.9075 |
0.9256 |
フレームワークバージョン
- Transformers 4.10.3
- Pytorch 1.9.0+cu102
- Datasets 1.12.1
- Tokenizers 0.10.3
📄 ライセンス
このモデルはMITライセンスの下で提供されています。