xlm-roberta-large-ner-kazakh開源模型 - 支持多實體識別的哈薩克語命名實體識別利器

首頁

Xlm Roberta Large Ner Kazakh

由yeshpanovrustem開發

基於XLM-RoBERTa-large架構的哈薩克語命名實體識別模型，在KazNERD數據集上訓練，支持多種實體類型識別

序列標註

Transformers

其他#哈薩克語NER #多實體識別 #高精度序列標註

下載量 99

發布時間 : 5/19/2023

模型概述

該模型專門用於哈薩克語文本中的命名實體識別任務，能夠識別地理位置、人名、組織名等多種實體類型

模型特點

高精度哈薩克語NER

在驗證集和測試集上F1值均超過96%，表現優異

多類別實體識別

支持識別諺語、藝術品、基數詞、聯繫方式、日期等多種實體類型

基於KazNERD數據集

使用經過清洗的哈薩克語命名實體識別數據集訓練，數據質量高

模型能力

哈薩克語文本處理

命名實體識別

序列標註

使用案例

文本分析

新聞文本分析

從哈薩克語新聞中提取關鍵實體信息

可準確識別地理位置、人名等關鍵信息

商業文檔處理

分析哈薩克斯坦與歐盟貿易文檔中的關鍵數據

能識別金額、日期等關鍵商業實體

學術研究

哈薩克語語言學研究

支持哈薩克語語言結構和實體分佈研究

🚀 哈薩克語命名實體識別模型

本模型用於解決哈薩克語命名實體識別問題，通過對哈薩克語語料的訓練，能夠準確識別文本中的各類命名實體，為哈薩克語的信息處理和分析提供有力支持。

🚀 快速開始

本模型可與 Transformers 庫的 NER 管道結合使用。以下是具體的使用代碼：

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("yeshpanovrustem/xlm-roberta-large-ner-kazakh")
model = AutoModelForTokenClassification.from_pretrained("yeshpanovrustem/xlm-roberta-large-ner-kazakh")

# aggregation_strategy = "none"
nlp = pipeline("ner", model = model, tokenizer = tokenizer, aggregation_strategy = "none")
example = "Қазақстан Республикасы — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет."

ner_results = nlp(example)
for result in ner_results:
    print(result)

# output:
# {'entity': 'B-GPE', 'score': 0.9995646, 'index': 1, 'word': '▁Қазақстан', 'start': 0, 'end': 9}
# {'entity': 'I-GPE', 'score': 0.9994935, 'index': 2, 'word': '▁Республикасы', 'start': 10, 'end': 22}
# {'entity': 'B-LOCATION', 'score': 0.99906737, 'index': 4, 'word': '▁Шығыс', 'start': 25, 'end': 30}
# {'entity': 'I-LOCATION', 'score': 0.999153, 'index': 5, 'word': '▁Еуропа', 'start': 31, 'end': 37}
# {'entity': 'B-LOCATION', 'score': 0.9991597, 'index': 7, 'word': '▁Орталық', 'start': 42, 'end': 49}
# {'entity': 'I-LOCATION', 'score': 0.9991725, 'index': 8, 'word': '▁Азия', 'start': 50, 'end': 54}
# {'entity': 'I-LOCATION', 'score': 0.9992299, 'index': 9, 'word': 'да', 'start': 54, 'end': 56}

token = ""
label_list = []
token_list = []

for result in ner_results:
    if result["word"].startswith("▁"):
        if token:
            token_list.append(token.replace("▁", ""))
        token = result["word"]
        label_list.append(result["entity"])
    else:
        token += result["word"]

token_list.append(token.replace("▁", ""))

for token, label in zip(token_list, label_list):
    print(f"{token}\t{label}")

# output:
# Қазақстан	B-GPE
# Республикасы	I-GPE
# Шығыс	B-LOCATION
# Еуропа	I-LOCATION
# Орталық	B-LOCATION
# Азияда	I-LOCATION

# aggregation_strategy = "simple"
nlp = pipeline("ner", model = model, tokenizer = tokenizer, aggregation_strategy = "simple")
example = "Қазақстан Республикасы — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет."

ner_results = nlp(example)
for result in ner_results:
    print(result)

# output:
# {'entity_group': 'GPE', 'score': 0.999529, 'word': 'Қазақстан Республикасы', 'start': 0, 'end': 22}
# {'entity_group': 'LOCATION', 'score': 0.9991102, 'word': 'Шығыс Еуропа', 'start': 25, 'end': 37}
# {'entity_group': 'LOCATION', 'score': 0.9991874, 'word': 'Орталық Азияда', 'start': 42, 'end': 56}

📚 詳細文檔

模型靈感來源

本模型的靈感來源於 LREC 2022 會議上發表的論文 KazNERD: Kazakh Named Entity Recognition Dataset。

訓練數據

模型在 ner_kazakh 數據集上進行了 3 個輪次的訓練。

原論文倉庫

論文的原始代碼倉庫可在 https://github.com/IS2AI/KazNERD 找到。

評估指標

模型使用的評估指標為 seqeval。

數據集

使用的數據集為 yeshpanovrustem/ner-kazakh。

許可證

本模型採用 CC BY 4.0 許可證。

模型測試示例

示例標題	示例文本
Example 1	Қазақстан Республикасы — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет.
Example 2	Ахмет Байтұрсынұлы — қазақ тілінің дыбыстық жүйесін алғашқы құрған ғалым.
Example 3	Қазақстан мен ЕуроОдақ арасындағы тауар айналым былтыр 38% өсіп, 40 миллиард долларға жетті. Екі тарап серіктестікті одан әрі нығайтуға мүдделі. Атап айтсақ, Қазақстан Еуропаға құны 2 млрд доллардан асатын 175 тауар экспорттын ұлғайтуға дайын.

驗證集和測試集的評估結果

	驗證集			測試集
精確率	召回率	F₁ 分數	精確率	召回率	F₁ 分數
96.58%	96.66%	96.62%	96.49%	96.86%	96.67%

驗證集上各命名實體類別的模型性能

命名實體類別	精確率	召回率	F₁ 分數	樣本數量
諺語	90.00%	47.37%	62.07%	19
藝術	91.36%	95.48%	93.38%	155
基數	98.44%	98.37%	98.40%	2,878
聯繫方式	100.00%	83.33%	90.91%	18
日期	97.38%	97.27%	97.33%	2,603
疾病	96.72%	97.52%	97.12%	121
事件	83.24%	93.51%	88.07%	154
設施	68.95%	84.83%	76.07%	178
地理政治實體	98.46%	96.50%	97.47%	1,656
語言	95.45%	89.36%	92.31%	47
法律	87.50%	87.50%	87.50%	56
地點	92.49%	93.81%	93.14%	210
其他	100.00%	76.92%	86.96%	26
貨幣	99.56%	100.00%	99.78%	455
非人類	0.00%	0.00%	0.00%	1
民族/宗教/政治團體	95.71%	95.45%	95.58%	374
序數	98.14%	95.84%	96.98%	385
組織	92.19%	90.97%	91.58%	753
百分比	99.08%	99.08%	99.08%	437
人物	98.47%	98.72%	98.60%	1,175
職位	96.15%	97.79%	96.96%	587
產品	89.06%	78.08%	83.21%	73
項目	92.13%	95.22%	93.65%	209
數量	97.58%	98.30%	97.94%	411
時間	94.81%	96.63%	95.71%	208
微平均	96.58%	96.66%	96.62%	13,189
宏平均	90.12%	87.51%	88.39%	13,189
加權平均	96.67%	96.66%	96.63%	13,189

測試集上各命名實體類別的模型性能

命名實體類別	精確率	召回率	F₁ 分數	樣本數量
諺語	71.43%	29.41%	41.67%	17
藝術	95.71%	96.89%	96.30%	161
基數	98.43%	98.60%	98.51%	2,789
聯繫方式	94.44%	85.00%	89.47%	20
日期	96.59%	97.60%	97.09%	2,584
疾病	87.69%	95.80%	91.57%	119
事件	86.67%	92.86%	89.66%	154
設施	74.88%	81.73%	78.16%	197
地理政治實體	98.57%	97.81%	98.19%	1,691
語言	90.70%	95.12%	92.86%	41
法律	93.33%	76.36%	84.00%	55
地點	92.08%	89.42%	90.73%	208
其他	86.21%	96.15%	90.91%	26
貨幣	100.00%	100.00%	100.00%	427
非人類	0.00%	0.00%	0.00%	1
民族/宗教/政治團體	99.46%	99.18%	99.32%	368
序數	96.63%	97.64%	97.14%	382
組織	90.97%	91.23%	91.10%	718
百分比	98.05%	98.05%	98.05%	462
人物	98.70%	99.13%	98.92%	1,151
職位	96.36%	97.65%	97.00%	597
產品	89.23%	77.33%	82.86%	75
項目	93.69%	93.69%	93.69%	206
數量	97.26%	97.02%	97.14%	403
時間	94.95%	94.09%	94.52%	220
微平均	96.54%	96.85%	96.69%	13,072
宏平均	88.88%	87.11%	87.55%	13,072
加權平均	96.55%	96.85%	96.67%	13,072