🚀 カザフ語用固有表現認識モデル
このモデルは、自然言語処理におけるカザフ語の固有表現認識タスクを解決するために開発されました。カザフ語の文章から様々な固有表現を高精度に抽出することができます。
🚀 クイックスタート
このモデルは、LREC 2022 の論文 KazNERD: Kazakh Named Entity Recognition Dataset にインスパイアされて開発されました。
このモデルは、ner_kazakh データセットで3エポックの訓練を行っています。
論文のオリジナルリポジトリは https://github.com/IS2AI/KazNERD で確認できます。
✨ 主な機能
- カザフ語の文章から様々な固有表現(人名、組織名、地名など)を認識することができます。
- Transformersパイプラインを使用して簡単に利用することができます。
📦 インストール
このモデルを使用するには、Transformersライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("yeshpanovrustem/xlm-roberta-large-ner-kazakh")
model = AutoModelForTokenClassification.from_pretrained("yeshpanovrustem/xlm-roberta-large-ner-kazakh")
nlp = pipeline("ner", model = model, tokenizer = tokenizer, aggregation_strategy = "none")
example = "Қазақстан Республикасы — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет."
ner_results = nlp(example)
for result in ner_results:
print(result)
token = ""
label_list = []
token_list = []
for result in ner_results:
if result["word"].startswith("▁"):
if token:
token_list.append(token.replace("▁", ""))
token = result["word"]
label_list.append(result["entity"])
else:
token += result["word"]
token_list.append(token.replace("▁", ""))
for token, label in zip(token_list, label_list):
print(f"{token}\t{label}")
nlp = pipeline("ner", model = model, tokenizer = tokenizer, aggregation_strategy = "simple")
example = "Қазақстан Республикасы — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет."
ner_results = nlp(example)
for result in ner_results:
print(result)
📚 ドキュメント
検証セットとテストセットでの評価結果
|
検証セット |
|
|
テストセット |
|
適合率 |
再現率 |
F1値 |
適合率 |
再現率 |
F1値 |
96.58% |
96.66% |
96.62% |
96.49% |
96.86% |
96.67% |
検証セットのNEクラスに対するモデル性能
NEクラス |
適合率 |
再現率 |
F1値 |
サポート |
格言 |
90.00% |
47.37% |
62.07% |
19 |
芸術 |
91.36% |
95.48% |
93.38% |
155 |
基数 |
98.44% |
98.37% |
98.40% |
2,878 |
連絡先 |
100.00% |
83.33% |
90.91% |
18 |
日付 |
97.38% |
97.27% |
97.33% |
2,603 |
疾病 |
96.72% |
97.52% |
97.12% |
121 |
イベント |
83.24% |
93.51% |
88.07% |
154 |
施設 |
68.95% |
84.83% |
76.07% |
178 |
地理的政治的エリア |
98.46% |
96.50% |
97.47% |
1,656 |
言語 |
95.45% |
89.36% |
92.31% |
47 |
法律 |
87.50% |
87.50% |
87.50% |
56 |
場所 |
92.49% |
93.81% |
93.14% |
210 |
その他 |
100.00% |
76.92% |
86.96% |
26 |
金額 |
99.56% |
100.00% |
99.78% |
455 |
非人物 |
0.00% |
0.00% |
0.00% |
1 |
国民、民族、宗教 |
95.71% |
95.45% |
95.58% |
374 |
序数 |
98.14% |
95.84% |
96.98% |
385 |
組織 |
92.19% |
90.97% |
91.58% |
753 |
パーセンテージ |
99.08% |
99.08% |
99.08% |
437 |
人物 |
98.47% |
98.72% |
98.60% |
1,175 |
職位 |
96.15% |
97.79% |
96.96% |
587 |
製品 |
89.06% |
78.08% |
83.21% |
73 |
プロジェクト |
92.13% |
95.22% |
93.65% |
209 |
数量 |
97.58% |
98.30% |
97.94% |
411 |
時間 |
94.81% |
96.63% |
95.71% |
208 |
マイクロ平均 |
96.58% |
96.66% |
96.62% |
13,189 |
マクロ平均 |
90.12% |
87.51% |
88.39% |
13,189 |
加重平均 |
96.67% |
96.66% |
96.63% |
13,189 |
テストセットのNEクラスに対するモデル性能
NEクラス |
適合率 |
再現率 |
F1値 |
サポート |
格言 |
71.43% |
29.41% |
41.67% |
17 |
芸術 |
95.71% |
96.89% |
96.30% |
161 |
基数 |
98.43% |
98.60% |
98.51% |
2,789 |
連絡先 |
94.44% |
85.00% |
89.47% |
20 |
日付 |
96.59% |
97.60% |
97.09% |
2,584 |
疾病 |
87.69% |
95.80% |
91.57% |
119 |
イベント |
86.67% |
92.86% |
89.66% |
154 |
施設 |
74.88% |
81.73% |
78.16% |
197 |
地理的政治的エリア |
98.57% |
97.81% |
98.19% |
1,691 |
言語 |
90.70% |
95.12% |
92.86% |
41 |
法律 |
93.33% |
76.36% |
84.00% |
55 |
場所 |
92.08% |
89.42% |
90.73% |
208 |
その他 |
86.21% |
96.15% |
90.91% |
26 |
金額 |
100.00% |
100.00% |
100.00% |
427 |
非人物 |
0.00% |
0.00% |
0.00% |
1 |
国民、民族、宗教 |
99.46% |
99.18% |
99.32% |
368 |
序数 |
96.63% |
97.64% |
97.14% |
382 |
組織 |
90.97% |
91.23% |
91.10% |
718 |
パーセンテージ |
98.05% |
98.05% |
98.05% |
462 |
人物 |
98.70% |
99.13% |
98.92% |
1,151 |
職位 |
96.36% |
97.65% |
97.00% |
597 |
製品 |
89.23% |
77.33% |
82.86% |
75 |
プロジェクト |
93.69% |
93.69% |
93.69% |
206 |
数量 |
97.26% |
97.02% |
97.14% |
403 |
時間 |
94.95% |
94.09% |
94.52% |
220 |
マイクロ平均 |
96.54% |
96.85% |
96.69% |
13,072 |
マクロ平均 |
88.88% |
87.11% |
87.55% |
13,072 |
加重平均 |
96.55% |
96.85% |
96.67% |
13,072 |
📄 ライセンス
このモデルは、CC BY 4.0ライセンスの下で提供されています。