KoELECTRA-small-v3-modu-nerオープンソース韓国語命名实体認識モデル - 15種類のエンティティタイプ認識をサポート

ホーム

Koelectra Small V3 Modu Ner

Leo97によって開発

KoELECTRA-small-v3ベースの韓国語固有表現認識モデル、15種類のエンティティタイプ認識をサポート

シーケンスラベリング

Transformers

韓国語#韓国語固有表現認識 #BIOタグ付け体系 #TTA標準エンティティ分類

ダウンロード数 9,277

リリース時間 : 3/29/2023

モデル概要

このモデルはmonologg/koelectra-small-v3-discriminatorをファインチューニングした韓国語固有表現認識(NER)モデルで、BIOタグ付けシステムを採用し、15種類のエンティティタイプ認識をサポートします。

モデル特徴

多カテゴリエンティティ認識

場所、人物、組織など15種類のエンティティタイプ認識をサポート

高性能

評価セットでF1値0.8339、精度0.9628を達成

標準タグ付けシステム

業界標準に準拠したBIOタグ付けシステムを採用

モデル能力

韓国語テキストのエンティティ認識

多カテゴリエンティティタグ付け

自然言語処理

使用事例

スマートアシスタント

住所認識

ユーザー指示中の場所情報を認識

例：'ソウル駅まで連れて行ってください'で'ソウル駅'を場所(LC)として認識

デバイス制御

デバイス制御指令中のパラメータを認識

例：'エアコンの温度を3度上げて'で'3度'を数量(QT)として認識

情報検索

芸能人作品検索

検索リクエスト中の芸能人情報を認識

例：'IUの曲を検索'で'IU'を人物(PS)として認識

🚀 KoELECTRA-small-v3-modu-ner

このモデルは、不明なデータセットでmonologg/koelectra-small-v3-discriminatorを微調整したバージョンです。評価セットでは、以下の結果を達成しています。

損失: 0.1431
適合率: 0.8232
再現率: 0.8449
F1値: 0.8339
正解率: 0.9628

✨ 主な機能

📚 ドキュメント

モデルの説明

タギングシステム : BIOシステム

B-(begin) : 固有表現が始まるとき
I-(inside) : トークンが固有表現の途中にあるとき
O(outside) : トークンが固有表現ではない場合

韓国情報通信技術協会(TTA)の大分類基準に準拠した15種類のタグセット

分類	表記	定義
ARTIFACTS	AF	人によって創造された人工物で、文化財、建物、楽器、道路、武器、輸送手段、作品名、工業製品名などがすべてこれに該当
ANIMAL	AM	人を除く動物
CIVILIZATION	CV	文明/文化
DATE	DT	期間、季節、時期/時代
EVENT	EV	特定の出来事/事故/イベントの名称
STUDY_FIELD	FD	学問分野、学派、流派
LOCATION	LC	地域/場所、地形/地理の名称などをすべて含む
MATERIAL	MT	元素、金属、岩石/宝石、化学物質
ORGANIZATION	OG	機関、団体の名称
PERSON	PS	人名、人物の別名 (類似人物の名称を含む)
PLANT	PT	花/木、陸上植物、海藻類、キノコ類、苔類
QUANTITY	QT	数量/分量、順序/順番、数詞で構成された表現
TIME	TI	時計で表される時刻、時間範囲
TERM	TM	他の固有表現で定義された詳細な固有表現以外の固有表現
THEORY	TR	特定の理論、法則、原理など

想定される用途と制限

使い方

このモデルは、Transformersのpipelineを使用して固有表現抽出(NER)に利用できます。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
model = AutoModelForTokenClassification.from_pretrained("Leo97/KoELECTRA-small-v3-modu-ner")
ner = pipeline("ner", model=model, tokenizer=tokenizer)

example = "서울역으로 안내해줘."
ner_results = ner(example)
print(ner_results)

学習と評価データ

固有表現抽出(NER)モデルの学習データセット

文化体育観光部 > 国立国語院 > みんなのコーパス > 固有表現分析コーパス2021
https://corpus.korean.go.kr/request/reausetMain.do

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率: 5e-05
学習バッチサイズ: 64
評価バッチサイズ: 64
シード値: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: linear
学習率スケジューラのウォームアップステップ: 15151
エポック数: 20
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	適合率	再現率	F1値	正解率
記録なし	1.0	3788	0.3978	0.5986	0.5471	0.5717	0.9087
記録なし	2.0	7576	0.2319	0.6986	0.6953	0.6969	0.9345
記録なし	3.0	11364	0.1838	0.7363	0.7612	0.7486	0.9444
記録なし	4.0	15152	0.1610	0.7762	0.7745	0.7754	0.9509
記録なし	5.0	18940	0.1475	0.7862	0.8011	0.7936	0.9545
記録なし	6.0	22728	0.1417	0.7857	0.8181	0.8016	0.9563
記録なし	7.0	26516	0.1366	0.8022	0.8196	0.8108	0.9584
記録なし	8.0	30304	0.1346	0.8093	0.8236	0.8164	0.9596
記録なし	9.0	34092	0.1328	0.8085	0.8299	0.8190	0.9602
記録なし	10.0	37880	0.1332	0.8110	0.8368	0.8237	0.9608
記録なし	11.0	41668	0.1323	0.8157	0.8347	0.8251	0.9612
記録なし	12.0	45456	0.1353	0.8118	0.8402	0.8258	0.9611
記録なし	13.0	49244	0.1370	0.8152	0.8416	0.8282	0.9616
記録なし	14.0	53032	0.1368	0.8164	0.8415	0.8287	0.9616
記録なし	15.0	56820	0.1378	0.8187	0.8438	0.8310	0.9621
記録なし	16.0	60608	0.1389	0.8217	0.8438	0.8326	0.9626
記録なし	17.0	64396	0.1380	0.8266	0.8426	0.8345	0.9631
記録なし	18.0	68184	0.1428	0.8216	0.8445	0.8329	0.9625
記録なし	19.0	71972	0.1431	0.8232	0.8455	0.8342	0.9628
0.1712	20.0	75760	0.1431	0.8232	0.8449	0.8339	0.9628