🚀 KoELECTRA-small-v3-modu-ner
KoELECTRA-small-v3-modu-ner是基於monologg/koelectra-small-v3-discriminator在未知數據集上微調得到的模型。它可用於實體識別任務,能識別多種類型的實體,在評估集上有較好的表現。
🚀 快速開始
如何使用
你可以使用Transformers庫的pipeline
進行命名實體識別(NER)。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
model = AutoModelForTokenClassification.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer)
example = "서울역으로 안내해줘."
ner_results = ner(example)
print(ner_results)
✨ 主要特性
- 標籤系統:採用BIO標籤系統,能準確標記實體的起始、中間和非實體部分。
- 豐富的標籤集:遵循韓國信息通信技術協會(TTA)大分類標準,包含15種標籤集,可識別多種類型的實體。
- 良好的性能:在評估集上,該模型的損失為0.1431,精確率為0.8232,召回率為0.8449,F1值為0.8339,準確率為0.9628。
📚 詳細文檔
標籤系統說明
- B-(begin) : 實體名稱開始時
- I-(inside) : 標記位於實體名稱中間時
- O(outside) : 標記不是實體名稱時
標籤集說明
該模型遵循韓國信息通信技術協會(TTA)大分類標準,採用15種標籤集,具體如下:
分類 |
標記 |
定義 |
ARTIFACTS |
AF |
人類創造的人工製品,包括文物、建築、樂器、道路、武器、交通工具、作品名稱、工業產品名稱等 |
ANIMAL |
AM |
除人類以外的動物 |
CIVILIZATION |
CV |
文明/文化 |
DATE |
DT |
時期、季節、時期/時代 |
EVENT |
EV |
特定事件/事故/活動名稱 |
STUDY_FIELD |
FD |
學術領域、學派和流派 |
LOCATION |
LC |
地區/地點和地形/地理名稱等 |
MATERIAL |
MT |
元素和金屬、岩石/寶石、化學物質 |
ORGANIZATION |
OG |
機構和團體名稱 |
PERSON |
PS |
人名和人物別名(包括類似人物名稱) |
PLANT |
PT |
花/樹、陸地植物、海藻、蘑菇、苔蘚 |
QUANTITY |
QT |
數量/分量、順序/序列、由數字組成的表達 |
TIME |
TI |
時鐘上顯示的小時/時間、時間範圍 |
TERM |
TM |
其他未在上述類別中定義的實體名稱 |
THEORY |
TR |
特定理論、法則原理等 |
📦 安裝指南
文檔未提及安裝步驟,若需使用該模型,可參考Transformers庫的安裝方法,確保安裝以下版本的庫:
- Transformers 4.27.4
- Pytorch 2.0.0+cu118
- Datasets 2.11.0
- Tokenizers 0.13.3
🔧 技術細節
訓練和評估數據
該命名實體識別(NER)模型的訓練數據集來自:
- 韓國文化體育觀光部 > 韓國國立國語院 > 全民語料庫 > 實體分析語料庫2021
- 數據集鏈接:https://corpus.korean.go.kr/request/reausetMain.do
訓練超參數
訓練過程中使用的超參數如下:
- 學習率(learning_rate): 5e-05
- 訓練批次大小(train_batch_size): 64
- 評估批次大小(eval_batch_size): 64
- 隨機種子(seed): 42
- 優化器(optimizer): Adam,β1=0.9,β2=0.999,ε=1e-08
- 學習率調度器類型(lr_scheduler_type): 線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps): 15151
- 訓練輪數(num_epochs): 20
- 混合精度訓練(mixed_precision_training): 原生自動混合精度(Native AMP)
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
精確率 |
召回率 |
F1值 |
準確率 |
無記錄 |
1.0 |
3788 |
0.3978 |
0.5986 |
0.5471 |
0.5717 |
0.9087 |
無記錄 |
2.0 |
7576 |
0.2319 |
0.6986 |
0.6953 |
0.6969 |
0.9345 |
無記錄 |
3.0 |
11364 |
0.1838 |
0.7363 |
0.7612 |
0.7486 |
0.9444 |
無記錄 |
4.0 |
15152 |
0.1610 |
0.7762 |
0.7745 |
0.7754 |
0.9509 |
無記錄 |
5.0 |
18940 |
0.1475 |
0.7862 |
0.8011 |
0.7936 |
0.9545 |
無記錄 |
6.0 |
22728 |
0.1417 |
0.7857 |
0.8181 |
0.8016 |
0.9563 |
無記錄 |
7.0 |
26516 |
0.1366 |
0.8022 |
0.8196 |
0.8108 |
0.9584 |
無記錄 |
8.0 |
30304 |
0.1346 |
0.8093 |
0.8236 |
0.8164 |
0.9596 |
無記錄 |
9.0 |
34092 |
0.1328 |
0.8085 |
0.8299 |
0.8190 |
0.9602 |
無記錄 |
10.0 |
37880 |
0.1332 |
0.8110 |
0.8368 |
0.8237 |
0.9608 |
無記錄 |
11.0 |
41668 |
0.1323 |
0.8157 |
0.8347 |
0.8251 |
0.9612 |
無記錄 |
12.0 |
45456 |
0.1353 |
0.8118 |
0.8402 |
0.8258 |
0.9611 |
無記錄 |
13.0 |
49244 |
0.1370 |
0.8152 |
0.8416 |
0.8282 |
0.9616 |
無記錄 |
14.0 |
53032 |
0.1368 |
0.8164 |
0.8415 |
0.8287 |
0.9616 |
無記錄 |
15.0 |
56820 |
0.1378 |
0.8187 |
0.8438 |
0.8310 |
0.9621 |
無記錄 |
16.0 |
60608 |
0.1389 |
0.8217 |
0.8438 |
0.8326 |
0.9626 |
無記錄 |
17.0 |
64396 |
0.1380 |
0.8266 |
0.8426 |
0.8345 |
0.9631 |
無記錄 |
18.0 |
68184 |
0.1428 |
0.8216 |
0.8445 |
0.8329 |
0.9625 |
無記錄 |
19.0 |
71972 |
0.1431 |
0.8232 |
0.8455 |
0.8342 |
0.9628 |
0.1712 |
20.0 |
75760 |
0.1431 |
0.8232 |
0.8449 |
0.8339 |
0.9628 |
框架版本
- Transformers 4.27.4
- Pytorch 2.0.0+cu118
- Datasets 2.11.0
- Tokenizers 0.13.3