🚀 IcelandicNER DistilBERT
このモデルは、アイスランド語用にMIM - GOLD - NERデータセットで微調整されました。MIM - GOLD - NERコーパスは、2018年から2020年にかけてレイキャビク大学で開発され、以下の8種類のエンティティをカバーしています。
- 日付
- 場所
- その他
- 金額
- 組織
- パーセント
- 人物
- 時間
📚 ドキュメント
データセット情報
Property |
Details |
レコード数(学習データ) |
39988 |
レコード数(検証データ) |
7063 |
レコード数(テストデータ) |
8299 |
B - Date(学習データ) |
3409 |
B - Date(検証データ) |
570 |
B - Date(テストデータ) |
779 |
B - Location(学習データ) |
5980 |
B - Location(検証データ) |
1034 |
B - Location(テストデータ) |
1319 |
B - Miscellaneous(学習データ) |
4351 |
B - Miscellaneous(検証データ) |
787 |
B - Miscellaneous(テストデータ) |
935 |
B - Money(学習データ) |
729 |
B - Money(検証データ) |
100 |
B - Money(テストデータ) |
153 |
B - Organization(学習データ) |
5754 |
B - Organization(検証データ) |
1078 |
B - Organization(テストデータ) |
1315 |
B - Percent(学習データ) |
502 |
B - Percent(検証データ) |
103 |
B - Percent(テストデータ) |
108 |
B - Person(学習データ) |
11719 |
B - Person(検証データ) |
2106 |
B - Person(テストデータ) |
2247 |
B - Time(学習データ) |
868 |
B - Time(検証データ) |
147 |
B - Time(テストデータ) |
172 |
I - Date(学習データ) |
2112 |
I - Date(検証データ) |
409 |
I - Date(テストデータ) |
483 |
I - Location(学習データ) |
516 |
I - Location(検証データ) |
76 |
I - Location(テストデータ) |
104 |
I - Miscellaneous(学習データ) |
3036 |
I - Miscellaneous(検証データ) |
560 |
I - Miscellaneous(テストデータ) |
660 |
I - Money(学習データ) |
770 |
I - Money(検証データ) |
104 |
I - Money(テストデータ) |
167 |
I - Organization(学習データ) |
2382 |
I - Organization(検証データ) |
458 |
I - Organization(テストデータ) |
617 |
I - Percent(学習データ) |
50 |
I - Percent(検証データ) |
7 |
I - Percent(テストデータ) |
10 |
I - Person(学習データ) |
5478 |
I - Person(検証データ) |
998 |
I - Person(テストデータ) |
1089 |
I - Time(学習データ) |
790 |
I - Time(検証データ) |
136 |
I - Time(テストデータ) |
158 |
評価
以下の表は、モデル全体および各クラスごとに得られたスコアをまとめたものです。
エンティティ |
適合率 |
再現率 |
F1値 |
サポート |
Date |
0.969309 |
0.973042 |
0.971172 |
779.0 |
Location |
0.941221 |
0.946929 |
0.944067 |
1319.0 |
Miscellaneous |
0.848283 |
0.819251 |
0.833515 |
935.0 |
Money |
0.928571 |
0.934641 |
0.931596 |
153.0 |
Organization |
0.874147 |
0.876806 |
0.875475 |
1315.0 |
Percent |
1.000000 |
1.000000 |
1.000000 |
108.0 |
Person |
0.956674 |
0.972853 |
0.964695 |
2247.0 |
Time |
0.965318 |
0.970930 |
0.968116 |
172.0 |
micro avg |
0.926110 |
0.929141 |
0.927623 |
7028.0 |
macro avg |
0.935441 |
0.936807 |
0.936079 |
7028.0 |
weighted avg |
0.925578 |
0.929141 |
0.927301 |
7028.0 |
💻 使用例
基本的な使用法
必要なライブラリのインストール
pip install transformers
パイプラインを使用した予測方法
from transformers import AutoTokenizer
from transformers import AutoModelForTokenClassification
from transformers import TFAutoModelForTokenClassification
from transformers import pipeline
model_name_or_path = "m3hrdadfi/icelandic-ner-distilbert"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Kristin manneskja getur ekki lagt frásagnir af Jesú Kristi á hilluna vegna þess að hún sé búin að lesa þær ."
ner_results = nlp(example)
print(ner_results)
❓ 質問がある場合
IcelandicNER IssuesリポジトリにGitHubのissueを投稿してください。
📄 ライセンス
このプロジェクトはApache - 2.0ライセンスの下でライセンスされています。