slovakbert-nerオープンソース命名实体認識モデル - 無料でスロバキアの地理、人物、機関の実体を識別

ホーム

Slovakbert Ner

crabzによって開発

このモデルは、SlovakBERTをスロバキアのwikiannデータセットでファインチューニングした命名エンティティ認識モデルで、地理位置、人物、組織機関の3種類のエンティティの認識をサポートします。

シーケンスラベリング

Transformers

その他オープンソースライセンス:MIT #スロバキア語のNER #高精度のエンティティ認識 #政治人物分析

ダウンロード数 58

リリース時間 : 3/2/2022

モデル概要

スロバキア語の命名エンティティ認識タスクに使用され、テキスト中の人物、場所、組織機関の名前を正確に認識できます。

モデル特徴

高精度のエンティティ認識

wikiann評価セットで93.27%の精度と94.70%の再現率を達成しました。

多クラスのエンティティサポート

地理位置(LOCATION)、人物(PERSON)、組織機関(ORGANIZATION)の3種類のエンティティを認識できます。

SlovakBERTに基づく最適化

スロバキア語に最適化されたBERTモデルで、ローカライズタスクで優れた性能を発揮します。

モデル能力

スロバキア語テキスト分析

命名エンティティ認識

エンティティ分類

使用事例

情報抽出

ニュース人物認識

スロバキア語のニュースから言及されている人物の名前を抽出します。

政治人物、著名人などを正確に認識します。

地理情報抽出

テキストで言及されている地理位置情報を認識します。

都市、国などの地理名を正確に認識します。

テキスト分析

組織機関分析

テキストで言及されている会社、政府機関などの組織を分析します。

テキスト中の組織関係ネットワークの理解に役立ちます。

🚀 スロバキア語BERTに基づく固有表現認識

このモデルは、スロバキア語のwikiannデータセットでgerulata/slovakbertをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.1600
適合率: 0.9327
再現率: 0.9470
F1値: 0.9398
正解率: 0.9785

🚀 クイックスタート

このモデルを使用して固有表現認識を行う基本的な手順を説明します。

基本的な使用法

from transformers import pipeline

ner_pipeline = pipeline(task='ner', model='crabz/slovakbert-ner')
input_sentence = "Minister financií a líder mandátovo najsilnejšieho hnutia OĽaNO Igor Matovič upozorňuje, že následky tretej vlny budú na Slovensku veľmi veľké."
classifications = ner_pipeline(input_sentence)

高度な使用法

displaCyを使用して視覚的に表示する方法です。

import spacy
from spacy import displacy

ner_map = {0: '0', 1: 'B-OSOBA', 2: 'I-OSOBA', 3: 'B-ORGANIZÁCIA', 4: 'I-ORGANIZÁCIA', 5: 'B-LOKALITA', 6: 'I-LOKALITA'}

entities = []
for i in range(len(classifications)):
    if classifications[i]['entity'] != 0:
        if ner_map[classifications[i]['entity']][0] == 'B':
            j = i + 1
            while j < len(classifications) and ner_map[classifications[j]['entity']][0] == 'I':
                j += 1
            entities.append((ner_map[classifications[i]['entity']].split('-')[1], classifications[i]['start'],
                             classifications[j - 1]['end']))

nlp = spacy.blank("en")  # どの言語でも動作するはず

doc = nlp(input_sentence)

ents = []
for ee in entities:
    ents.append(doc.char_span(ee[1], ee[2], ee[0]))

doc.ents = ents

options = {"ents": ["OSOBA", "ORGANIZÁCIA", "LOKALITA"],
           "colors": {"OSOBA": "lightblue", "ORGANIZÁCIA": "lightcoral", "LOKALITA": "lightgreen"}}
displacy_html = displacy.render(doc, style="ent", options=options)

Minister financií a líder mandátovo najsilnejšieho hnutia OĽaNO ORGANIZÁCIA Igor Matovič OSOBA upozorňuje, že následky tretej vlny budú na Slovensku LOKALITA veľmi veľké.

✨ 主な機能

サポートされるクラス: 場所(LOCATION)、人物(PERSON)、組織(ORGANIZATION)

📚 ドキュメント

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 5e-05
学習バッチサイズ: 32
評価バッチサイズ: 8
乱数シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
エポック数: 15.0

学習結果

学習損失	エポック	ステップ	検証損失	適合率	再現率	F1値	正解率
0.2342	1.0	625	0.1233	0.8891	0.9076	0.8982	0.9667
0.1114	2.0	1250	0.1079	0.9118	0.9269	0.9193	0.9725
0.0817	3.0	1875	0.1093	0.9173	0.9315	0.9243	0.9747
0.0438	4.0	2500	0.1076	0.9188	0.9353	0.9270	0.9743
0.028	5.0	3125	0.1230	0.9143	0.9387	0.9264	0.9744
0.0256	6.0	3750	0.1204	0.9246	0.9423	0.9334	0.9765
0.018	7.0	4375	0.1332	0.9292	0.9416	0.9353	0.9770
0.0107	8.0	5000	0.1339	0.9280	0.9427	0.9353	0.9769
0.0079	9.0	5625	0.1368	0.9326	0.9442	0.9383	0.9785
0.0065	10.0	6250	0.1490	0.9284	0.9445	0.9364	0.9772
0.0061	11.0	6875	0.1566	0.9328	0.9433	0.9380	0.9778
0.0031	12.0	7500	0.1555	0.9339	0.9473	0.9406	0.9787
0.0024	13.0	8125	0.1548	0.9349	0.9462	0.9405	0.9787
0.0015	14.0	8750	0.1562	0.9330	0.9469	0.9399	0.9788
0.0013	15.0	9375	0.1600	0.9327	0.9470	0.9398	0.9785