KoELECTRA-small-v3-modu-ner開源韓語命名實體識別模型

首頁

Koelectra Small V3 Modu Ner

由Leo97開發

基於KoELECTRA-small-v3的韓語命名實體識別模型，支持15種實體類型識別

序列標註

Transformers

韓語#韓語命名實體識別 #BIO標註體系 #TTA標準實體分類

下載量 9,277

發布時間 : 3/29/2023

模型概述

該模型是基於monologg/koelectra-small-v3-discriminator微調的韓語命名實體識別(NER)模型，採用BIO標註系統，支持15種實體類型識別。

模型特點

多類別實體識別

支持15種實體類型識別，包括地點、人物、組織等

高性能

在評估集上F1值達到0.8339，準確率0.9628

標準標註系統

採用BIO標註系統，符合行業標準

模型能力

韓語文本實體識別

多類別實體標註

自然語言處理

使用案例

智能助手

地址識別

識別用戶指令中的地點信息

示例：'請帶我去首爾站' 可識別'首爾站'為地點(LC)

設備控制

識別設備控制指令中的參數

示例：'把空調溫度調高3度' 可識別'3度'為數量(QT)

信息檢索

藝人作品搜索

識別搜索請求中的藝人信息

示例：'搜索IU的歌曲' 可識別'IU'為人物(PS)

🚀 KoELECTRA-small-v3-modu-ner

KoELECTRA-small-v3-modu-ner是基於monologg/koelectra-small-v3-discriminator在未知數據集上微調得到的模型。它可用於實體識別任務，能識別多種類型的實體，在評估集上有較好的表現。

🚀 快速開始

如何使用

你可以使用Transformers庫的pipeline進行命名實體識別（NER）。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
model = AutoModelForTokenClassification.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer)

example = "서울역으로 안내해줘."
ner_results = ner(example)
print(ner_results)

✨ 主要特性

標籤系統：採用BIO標籤系統，能準確標記實體的起始、中間和非實體部分。
豐富的標籤集：遵循韓國信息通信技術協會（TTA）大分類標準，包含15種標籤集，可識別多種類型的實體。
良好的性能：在評估集上，該模型的損失為0.1431，精確率為0.8232，召回率為0.8449，F1值為0.8339，準確率為0.9628。

📚 詳細文檔

標籤系統說明

B-(begin) : 實體名稱開始時
I-(inside) : 標記位於實體名稱中間時
O(outside) : 標記不是實體名稱時

標籤集說明

該模型遵循韓國信息通信技術協會（TTA）大分類標準，採用15種標籤集，具體如下：

分類	標記	定義
ARTIFACTS	AF	人類創造的人工製品，包括文物、建築、樂器、道路、武器、交通工具、作品名稱、工業產品名稱等
ANIMAL	AM	除人類以外的動物
CIVILIZATION	CV	文明/文化
DATE	DT	時期、季節、時期/時代
EVENT	EV	特定事件/事故/活動名稱
STUDY_FIELD	FD	學術領域、學派和流派
LOCATION	LC	地區/地點和地形/地理名稱等
MATERIAL	MT	元素和金屬、岩石/寶石、化學物質
ORGANIZATION	OG	機構和團體名稱
PERSON	PS	人名和人物別名（包括類似人物名稱）
PLANT	PT	花/樹、陸地植物、海藻、蘑菇、苔蘚
QUANTITY	QT	數量/分量、順序/序列、由數字組成的表達
TIME	TI	時鐘上顯示的小時/時間、時間範圍
TERM	TM	其他未在上述類別中定義的實體名稱
THEORY	TR	特定理論、法則原理等

📦 安裝指南

文檔未提及安裝步驟，若需使用該模型，可參考Transformers庫的安裝方法，確保安裝以下版本的庫：

Transformers 4.27.4
Pytorch 2.0.0+cu118
Datasets 2.11.0
Tokenizers 0.13.3

🔧 技術細節

訓練和評估數據

該命名實體識別（NER）模型的訓練數據集來自：

韓國文化體育觀光部 > 韓國國立國語院 > 全民語料庫 > 實體分析語料庫2021
數據集鏈接：https://corpus.korean.go.kr/request/reausetMain.do

訓練超參數

訓練過程中使用的超參數如下：

學習率（learning_rate）: 5e-05
訓練批次大小（train_batch_size）: 64
評估批次大小（eval_batch_size）: 64
隨機種子（seed）: 42
優化器（optimizer）: Adam，β1=0.9，β2=0.999，ε=1e-08
學習率調度器類型（lr_scheduler_type）: 線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）: 15151
訓練輪數（num_epochs）: 20
混合精度訓練（mixed_precision_training）: 原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	精確率	召回率	F1值	準確率
無記錄	1.0	3788	0.3978	0.5986	0.5471	0.5717	0.9087
無記錄	2.0	7576	0.2319	0.6986	0.6953	0.6969	0.9345
無記錄	3.0	11364	0.1838	0.7363	0.7612	0.7486	0.9444
無記錄	4.0	15152	0.1610	0.7762	0.7745	0.7754	0.9509
無記錄	5.0	18940	0.1475	0.7862	0.8011	0.7936	0.9545
無記錄	6.0	22728	0.1417	0.7857	0.8181	0.8016	0.9563
無記錄	7.0	26516	0.1366	0.8022	0.8196	0.8108	0.9584
無記錄	8.0	30304	0.1346	0.8093	0.8236	0.8164	0.9596
無記錄	9.0	34092	0.1328	0.8085	0.8299	0.8190	0.9602
無記錄	10.0	37880	0.1332	0.8110	0.8368	0.8237	0.9608
無記錄	11.0	41668	0.1323	0.8157	0.8347	0.8251	0.9612
無記錄	12.0	45456	0.1353	0.8118	0.8402	0.8258	0.9611
無記錄	13.0	49244	0.1370	0.8152	0.8416	0.8282	0.9616
無記錄	14.0	53032	0.1368	0.8164	0.8415	0.8287	0.9616
無記錄	15.0	56820	0.1378	0.8187	0.8438	0.8310	0.9621
無記錄	16.0	60608	0.1389	0.8217	0.8438	0.8326	0.9626
無記錄	17.0	64396	0.1380	0.8266	0.8426	0.8345	0.9631
無記錄	18.0	68184	0.1428	0.8216	0.8445	0.8329	0.9625
無記錄	19.0	71972	0.1431	0.8232	0.8455	0.8342	0.9628
0.1712	20.0	75760	0.1431	0.8232	0.8449	0.8339	0.9628