🚀 KoELECTRA-small-v3-modu-ner
このモデルは、不明なデータセットでmonologg/koelectra-small-v3-discriminatorを微調整したバージョンです。
評価セットでは、以下の結果を達成しています。
- 損失: 0.1431
- 適合率: 0.8232
- 再現率: 0.8449
- F1値: 0.8339
- 正解率: 0.9628
✨ 主な機能
📚 ドキュメント
モデルの説明
タギングシステム : BIOシステム
- B-(begin) : 固有表現が始まるとき
- I-(inside) : トークンが固有表現の途中にあるとき
- O(outside) : トークンが固有表現ではない場合
韓国情報通信技術協会(TTA)の大分類基準に準拠した15種類のタグセット
分類 |
表記 |
定義 |
ARTIFACTS |
AF |
人によって創造された人工物で、文化財、建物、楽器、道路、武器、輸送手段、作品名、工業製品名などがすべてこれに該当 |
ANIMAL |
AM |
人を除く動物 |
CIVILIZATION |
CV |
文明/文化 |
DATE |
DT |
期間、季節、時期/時代 |
EVENT |
EV |
特定の出来事/事故/イベントの名称 |
STUDY_FIELD |
FD |
学問分野、学派、流派 |
LOCATION |
LC |
地域/場所、地形/地理の名称などをすべて含む |
MATERIAL |
MT |
元素、金属、岩石/宝石、化学物質 |
ORGANIZATION |
OG |
機関、団体の名称 |
PERSON |
PS |
人名、人物の別名 (類似人物の名称を含む) |
PLANT |
PT |
花/木、陸上植物、海藻類、キノコ類、苔類 |
QUANTITY |
QT |
数量/分量、順序/順番、数詞で構成された表現 |
TIME |
TI |
時計で表される時刻、時間範囲 |
TERM |
TM |
他の固有表現で定義された詳細な固有表現以外の固有表現 |
THEORY |
TR |
特定の理論、法則、原理など |
想定される用途と制限
使い方
このモデルは、Transformersのpipelineを使用して固有表現抽出(NER)に利用できます。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
model = AutoModelForTokenClassification.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer)
example = "서울역으로 안내해줘."
ner_results = ner(example)
print(ner_results)
学習と評価データ
固有表現抽出(NER)モデルの学習データセット
- 文化体育観光部 > 国立国語院 > みんなのコーパス > 固有表現分析コーパス2021
- https://corpus.korean.go.kr/request/reausetMain.do
学習手順
学習ハイパーパラメータ
学習中に以下のハイパーパラメータが使用されました。
- 学習率: 5e-05
- 学習バッチサイズ: 64
- 評価バッチサイズ: 64
- シード値: 42
- オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類: linear
- 学習率スケジューラのウォームアップステップ: 15151
- エポック数: 20
- 混合精度学習: Native AMP
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
適合率 |
再現率 |
F1値 |
正解率 |
記録なし |
1.0 |
3788 |
0.3978 |
0.5986 |
0.5471 |
0.5717 |
0.9087 |
記録なし |
2.0 |
7576 |
0.2319 |
0.6986 |
0.6953 |
0.6969 |
0.9345 |
記録なし |
3.0 |
11364 |
0.1838 |
0.7363 |
0.7612 |
0.7486 |
0.9444 |
記録なし |
4.0 |
15152 |
0.1610 |
0.7762 |
0.7745 |
0.7754 |
0.9509 |
記録なし |
5.0 |
18940 |
0.1475 |
0.7862 |
0.8011 |
0.7936 |
0.9545 |
記録なし |
6.0 |
22728 |
0.1417 |
0.7857 |
0.8181 |
0.8016 |
0.9563 |
記録なし |
7.0 |
26516 |
0.1366 |
0.8022 |
0.8196 |
0.8108 |
0.9584 |
記録なし |
8.0 |
30304 |
0.1346 |
0.8093 |
0.8236 |
0.8164 |
0.9596 |
記録なし |
9.0 |
34092 |
0.1328 |
0.8085 |
0.8299 |
0.8190 |
0.9602 |
記録なし |
10.0 |
37880 |
0.1332 |
0.8110 |
0.8368 |
0.8237 |
0.9608 |
記録なし |
11.0 |
41668 |
0.1323 |
0.8157 |
0.8347 |
0.8251 |
0.9612 |
記録なし |
12.0 |
45456 |
0.1353 |
0.8118 |
0.8402 |
0.8258 |
0.9611 |
記録なし |
13.0 |
49244 |
0.1370 |
0.8152 |
0.8416 |
0.8282 |
0.9616 |
記録なし |
14.0 |
53032 |
0.1368 |
0.8164 |
0.8415 |
0.8287 |
0.9616 |
記録なし |
15.0 |
56820 |
0.1378 |
0.8187 |
0.8438 |
0.8310 |
0.9621 |
記録なし |
16.0 |
60608 |
0.1389 |
0.8217 |
0.8438 |
0.8326 |
0.9626 |
記録なし |
17.0 |
64396 |
0.1380 |
0.8266 |
0.8426 |
0.8345 |
0.9631 |
記録なし |
18.0 |
68184 |
0.1428 |
0.8216 |
0.8445 |
0.8329 |
0.9625 |
記録なし |
19.0 |
71972 |
0.1431 |
0.8232 |
0.8455 |
0.8342 |
0.9628 |
0.1712 |
20.0 |
75760 |
0.1431 |
0.8232 |
0.8449 |
0.8339 |
0.9628 |
フレームワークのバージョン
- Transformers 4.27.4
- Pytorch 2.0.0+cu118
- Datasets 2.11.0
- Tokenizers 0.13.3