Xlm Roberta Large Ner Kazakh
基於XLM-RoBERTa-large架構的哈薩克語命名實體識別模型,在KazNERD數據集上訓練,支持多種實體類型識別
下載量 99
發布時間 : 5/19/2023
模型概述
該模型專門用於哈薩克語文本中的命名實體識別任務,能夠識別地理位置、人名、組織名等多種實體類型
模型特點
高精度哈薩克語NER
在驗證集和測試集上F1值均超過96%,表現優異
多類別實體識別
支持識別諺語、藝術品、基數詞、聯繫方式、日期等多種實體類型
基於KazNERD數據集
使用經過清洗的哈薩克語命名實體識別數據集訓練,數據質量高
模型能力
哈薩克語文本處理
命名實體識別
序列標註
使用案例
文本分析
新聞文本分析
從哈薩克語新聞中提取關鍵實體信息
可準確識別地理位置、人名等關鍵信息
商業文檔處理
分析哈薩克斯坦與歐盟貿易文檔中的關鍵數據
能識別金額、日期等關鍵商業實體
學術研究
哈薩克語語言學研究
支持哈薩克語語言結構和實體分佈研究
🚀 哈薩克語命名實體識別模型
本模型用於解決哈薩克語命名實體識別問題,通過對哈薩克語語料的訓練,能夠準確識別文本中的各類命名實體,為哈薩克語的信息處理和分析提供有力支持。
🚀 快速開始
本模型可與 Transformers 庫的 NER 管道結合使用。以下是具體的使用代碼:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("yeshpanovrustem/xlm-roberta-large-ner-kazakh")
model = AutoModelForTokenClassification.from_pretrained("yeshpanovrustem/xlm-roberta-large-ner-kazakh")
# aggregation_strategy = "none"
nlp = pipeline("ner", model = model, tokenizer = tokenizer, aggregation_strategy = "none")
example = "Қазақстан Республикасы — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет."
ner_results = nlp(example)
for result in ner_results:
print(result)
# output:
# {'entity': 'B-GPE', 'score': 0.9995646, 'index': 1, 'word': '▁Қазақстан', 'start': 0, 'end': 9}
# {'entity': 'I-GPE', 'score': 0.9994935, 'index': 2, 'word': '▁Республикасы', 'start': 10, 'end': 22}
# {'entity': 'B-LOCATION', 'score': 0.99906737, 'index': 4, 'word': '▁Шығыс', 'start': 25, 'end': 30}
# {'entity': 'I-LOCATION', 'score': 0.999153, 'index': 5, 'word': '▁Еуропа', 'start': 31, 'end': 37}
# {'entity': 'B-LOCATION', 'score': 0.9991597, 'index': 7, 'word': '▁Орталық', 'start': 42, 'end': 49}
# {'entity': 'I-LOCATION', 'score': 0.9991725, 'index': 8, 'word': '▁Азия', 'start': 50, 'end': 54}
# {'entity': 'I-LOCATION', 'score': 0.9992299, 'index': 9, 'word': 'да', 'start': 54, 'end': 56}
token = ""
label_list = []
token_list = []
for result in ner_results:
if result["word"].startswith("▁"):
if token:
token_list.append(token.replace("▁", ""))
token = result["word"]
label_list.append(result["entity"])
else:
token += result["word"]
token_list.append(token.replace("▁", ""))
for token, label in zip(token_list, label_list):
print(f"{token}\t{label}")
# output:
# Қазақстан B-GPE
# Республикасы I-GPE
# Шығыс B-LOCATION
# Еуропа I-LOCATION
# Орталық B-LOCATION
# Азияда I-LOCATION
# aggregation_strategy = "simple"
nlp = pipeline("ner", model = model, tokenizer = tokenizer, aggregation_strategy = "simple")
example = "Қазақстан Республикасы — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет."
ner_results = nlp(example)
for result in ner_results:
print(result)
# output:
# {'entity_group': 'GPE', 'score': 0.999529, 'word': 'Қазақстан Республикасы', 'start': 0, 'end': 22}
# {'entity_group': 'LOCATION', 'score': 0.9991102, 'word': 'Шығыс Еуропа', 'start': 25, 'end': 37}
# {'entity_group': 'LOCATION', 'score': 0.9991874, 'word': 'Орталық Азияда', 'start': 42, 'end': 56}
📚 詳細文檔
模型靈感來源
本模型的靈感來源於 LREC 2022 會議上發表的論文 KazNERD: Kazakh Named Entity Recognition Dataset。
訓練數據
模型在 ner_kazakh 數據集上進行了 3 個輪次的訓練。
原論文倉庫
論文的原始代碼倉庫可在 https://github.com/IS2AI/KazNERD 找到。
評估指標
模型使用的評估指標為 seqeval
。
數據集
使用的數據集為 yeshpanovrustem/ner-kazakh
。
許可證
本模型採用 CC BY 4.0
許可證。
模型測試示例
示例標題 | 示例文本 |
---|---|
Example 1 | Қазақстан Республикасы — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет. |
Example 2 | Ахмет Байтұрсынұлы — қазақ тілінің дыбыстық жүйесін алғашқы құрған ғалым. |
Example 3 | Қазақстан мен ЕуроОдақ арасындағы тауар айналым былтыр 38% өсіп, 40 миллиард долларға жетті. Екі тарап серіктестікті одан әрі нығайтуға мүдделі. Атап айтсақ, Қазақстан Еуропаға құны 2 млрд доллардан асатын 175 тауар экспорттын ұлғайтуға дайын. |
驗證集和測試集的評估結果
驗證集 | 測試集 | ||||
---|---|---|---|---|---|
精確率 | 召回率 | F1 分數 | 精確率 | 召回率 | F1 分數 |
96.58% | 96.66% | 96.62% | 96.49% | 96.86% | 96.67% |
驗證集上各命名實體類別的模型性能
命名實體類別 | 精確率 | 召回率 | F1 分數 | 樣本數量 |
---|---|---|---|---|
諺語 | 90.00% | 47.37% | 62.07% | 19 |
藝術 | 91.36% | 95.48% | 93.38% | 155 |
基數 | 98.44% | 98.37% | 98.40% | 2,878 |
聯繫方式 | 100.00% | 83.33% | 90.91% | 18 |
日期 | 97.38% | 97.27% | 97.33% | 2,603 |
疾病 | 96.72% | 97.52% | 97.12% | 121 |
事件 | 83.24% | 93.51% | 88.07% | 154 |
設施 | 68.95% | 84.83% | 76.07% | 178 |
地理政治實體 | 98.46% | 96.50% | 97.47% | 1,656 |
語言 | 95.45% | 89.36% | 92.31% | 47 |
法律 | 87.50% | 87.50% | 87.50% | 56 |
地點 | 92.49% | 93.81% | 93.14% | 210 |
其他 | 100.00% | 76.92% | 86.96% | 26 |
貨幣 | 99.56% | 100.00% | 99.78% | 455 |
非人類 | 0.00% | 0.00% | 0.00% | 1 |
民族/宗教/政治團體 | 95.71% | 95.45% | 95.58% | 374 |
序數 | 98.14% | 95.84% | 96.98% | 385 |
組織 | 92.19% | 90.97% | 91.58% | 753 |
百分比 | 99.08% | 99.08% | 99.08% | 437 |
人物 | 98.47% | 98.72% | 98.60% | 1,175 |
職位 | 96.15% | 97.79% | 96.96% | 587 |
產品 | 89.06% | 78.08% | 83.21% | 73 |
項目 | 92.13% | 95.22% | 93.65% | 209 |
數量 | 97.58% | 98.30% | 97.94% | 411 |
時間 | 94.81% | 96.63% | 95.71% | 208 |
微平均 | 96.58% | 96.66% | 96.62% | 13,189 |
宏平均 | 90.12% | 87.51% | 88.39% | 13,189 |
加權平均 | 96.67% | 96.66% | 96.63% | 13,189 |
測試集上各命名實體類別的模型性能
命名實體類別 | 精確率 | 召回率 | F1 分數 | 樣本數量 |
---|---|---|---|---|
諺語 | 71.43% | 29.41% | 41.67% | 17 |
藝術 | 95.71% | 96.89% | 96.30% | 161 |
基數 | 98.43% | 98.60% | 98.51% | 2,789 |
聯繫方式 | 94.44% | 85.00% | 89.47% | 20 |
日期 | 96.59% | 97.60% | 97.09% | 2,584 |
疾病 | 87.69% | 95.80% | 91.57% | 119 |
事件 | 86.67% | 92.86% | 89.66% | 154 |
設施 | 74.88% | 81.73% | 78.16% | 197 |
地理政治實體 | 98.57% | 97.81% | 98.19% | 1,691 |
語言 | 90.70% | 95.12% | 92.86% | 41 |
法律 | 93.33% | 76.36% | 84.00% | 55 |
地點 | 92.08% | 89.42% | 90.73% | 208 |
其他 | 86.21% | 96.15% | 90.91% | 26 |
貨幣 | 100.00% | 100.00% | 100.00% | 427 |
非人類 | 0.00% | 0.00% | 0.00% | 1 |
民族/宗教/政治團體 | 99.46% | 99.18% | 99.32% | 368 |
序數 | 96.63% | 97.64% | 97.14% | 382 |
組織 | 90.97% | 91.23% | 91.10% | 718 |
百分比 | 98.05% | 98.05% | 98.05% | 462 |
人物 | 98.70% | 99.13% | 98.92% | 1,151 |
職位 | 96.36% | 97.65% | 97.00% | 597 |
產品 | 89.23% | 77.33% | 82.86% | 75 |
項目 | 93.69% | 93.69% | 93.69% | 206 |
數量 | 97.26% | 97.02% | 97.14% | 403 |
時間 | 94.95% | 94.09% | 94.52% | 220 |
微平均 | 96.54% | 96.85% | 96.69% | 13,072 |
宏平均 | 88.88% | 87.11% | 87.55% | 13,072 |
加權平均 | 96.55% | 96.85% | 96.67% | 13,072 |
Indonesian Roberta Base Posp Tagger
MIT
這是一個基於印尼語RoBERTa模型微調的詞性標註模型,在indonlu數據集上訓練,用於印尼語文本的詞性標註任務。
序列標註
Transformers 其他

I
w11wo
2.2M
7
Bert Base NER
MIT
基於BERT微調的命名實體識別模型,可識別四類實體:地點(LOC)、組織機構(ORG)、人名(PER)和雜項(MISC)
序列標註 英語
B
dslim
1.8M
592
Deid Roberta I2b2
MIT
該模型是基於RoBERTa微調的序列標註模型,用於識別和移除醫療記錄中的受保護健康信息(PHI/PII)。
序列標註
Transformers 支持多種語言

D
obi
1.1M
33
Ner English Fast
Flair自帶的英文快速4類命名實體識別模型,基於Flair嵌入和LSTM-CRF架構,在CoNLL-03數據集上達到92.92的F1分數。
序列標註
PyTorch 英語
N
flair
978.01k
24
French Camembert Postag Model
基於Camembert-base的法語詞性標註模型,使用free-french-treebank數據集訓練
序列標註
Transformers 法語

F
gilf
950.03k
9
Xlm Roberta Large Ner Spanish
基於XLM-Roberta-large架構微調的西班牙語命名實體識別模型,在CoNLL-2002數據集上表現優異。
序列標註
Transformers 西班牙語

X
MMG
767.35k
29
Nusabert Ner V1.3
MIT
基於NusaBert-v1.3在印尼語NER任務上微調的命名實體識別模型
序列標註
Transformers 其他

N
cahya
759.09k
3
Ner English Large
Flair框架內置的英文4類大型NER模型,基於文檔級XLM-R嵌入和FLERT技術,在CoNLL-03數據集上F1分數達94.36。
序列標註
PyTorch 英語
N
flair
749.04k
44
Punctuate All
MIT
基於xlm-roberta-base微調的多語言標點符號預測模型,支持12種歐洲語言的標點符號自動補全
序列標註
Transformers

P
kredor
728.70k
20
Xlm Roberta Ner Japanese
MIT
基於xlm-roberta-base微調的日語命名實體識別模型
序列標註
Transformers 支持多種語言

X
tsmatz
630.71k
25
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98