roberta-uz開源烏茲別克語命名實體識別模型 - 免費支持21種實體類型識別

首頁

Roberta Uz

由mustafoyev202開發

基於XLM-RoBERTa-large微調的烏茲別克語命名實體識別模型，支持21種實體類型識別

序列標註

Transformers

其他開源協議:MIT #烏茲別克語NER #多實體識別 #XLM-RoBERTa微調

下載量 21

發布時間 : 2/23/2025

模型概述

本模型是針對烏茲別克語優化的命名實體識別(NER)模型，能夠識別文本中的人名、地名、組織名等21類實體。基於FacebookAI的xlm-roberta-large架構微調，在烏茲別克語NER數據集上訓練。

模型特點

多類別實體識別

支持識別21種實體類型，包括人物、地點、組織、日期、貨幣等

跨語言預訓練優勢

基於XLM-RoBERTa-large架構，繼承了強大的跨語言表示能力

高效微調

採用餘弦退火學習率調度和梯度累積技術優化訓練過程

模型能力

烏茲別克語文本實體識別

BIO格式實體標註

多類別實體分類

使用案例

文本分析

新聞實體提取

從烏茲別克語新聞中提取人名、組織名和地名等關鍵信息

F1值達0.6071

文檔結構化處理

自動化處理烏茲別克語文檔，識別並標註各類命名實體

商業智能

客戶數據分析

從烏茲別克語客戶反饋中提取公司名、產品名等實體

🚀 烏茲別克語命名實體識別模型

本模型是基於烏茲別克語命名實體識別（NER）數據集對 [FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large) 進行微調後的版本。它在評估集上取得了以下成績：

損失值：0.1754
精確率：0.5848
召回率：0.6313
F1值：0.6071
準確率：0.9386

🚀 快速開始

本模型是 [FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large) 在烏茲別克語NER數據集上的微調版本。它在評估集上取得了如下結果：

損失：0.1754
精確率：0.5848
召回率：0.6313
F1值：0.6071
準確率：0.9386

📦 安裝指南

文檔未提供安裝步驟，可參考 transformers 庫的官方安裝指南進行安裝。

💻 使用示例

基礎用法

# 導入必要的庫
from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch

# 自定義標籤映射
custom_id2label = {
    0: "O", 1: "B-CARDINAL", 2: "I-CARDINAL", 3: "B-DATE", 4: "I-DATE",
    5: "B-EVENT", 6: "I-EVENT", 7: "B-GPE", 8: "I-GPE", 9: "B-LOC", 10: "I-LOC",
    11: "B-MONEY", 12: "I-MONEY", 13: "B-ORDINAL", 14: "B-ORG", 15: "I-ORG",
    16: "B-PERCENT", 17: "I-PERCENT", 18: "B-PERSON", 19: "I-PERSON",
    20: "B-TIME", 21: "I-TIME"
}
custom_label2id = {v: k for k, v in custom_id2label.items()}

# 模型名稱
model_name = "mustafoyev202/roberta-uz"
# 加載分詞器
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 加載模型
model = AutoModelForTokenClassification.from_pretrained(model_name, num_labels=23)

# 設置模型的標籤映射
model.config.id2label = custom_id2label
model.config.label2id = custom_label2id

# 待處理的文本
text = "Tesla kompaniyasi AQSHda joylashgan."

# 對文本進行分詞
tokens = tokenizer(text.split(), return_tensors="pt", is_split_into_words=True)

# 進行推理
with torch.no_grad():
    logits = model(**tokens).logits

# 獲取預測的標籤ID
predicted_token_class_ids = logits.argmax(-1).squeeze().tolist()

# 獲取單詞ID
word_ids = tokens.word_ids()
previous_word_id = None
word_predictions = {}

# 處理預測結果
for i, word_id in enumerate(word_ids):
    if word_id is not None:
        label = custom_id2label[predicted_token_class_ids[i]]
        if word_id != previous_word_id:  # 新單詞
            word_predictions[word_id] = label
        previous_word_id = word_id

# 分割文本為單詞
words = text.split()  # 簡單分割
# 最終預測結果
final_predictions = [(word, word_predictions.get(i, "O")) for i, word in enumerate(words)]

# 打印預測結果
print("Predictions:")
for word, label in final_predictions:
    print(f"{word}: {label}")

# 計算損失
labels = torch.tensor([predicted_token_class_ids]).unsqueeze(0)  # 調整維度
loss = model(**tokens, labels=labels).loss
print("\nLoss:", round(loss.item(), 2))

🔧 技術細節

訓練超參數

訓練過程中使用了以下超參數：

學習率：1e - 05
訓練批次大小：8
評估批次大小：8
隨機種子：42
梯度累積步數：8
總訓練批次大小：64
優化器：使用 OptimizerNames.ADAMW_TORCH，betas=(0.9, 0.999)，epsilon=1e - 08，無額外優化器參數
學習率調度器類型：cosine_with_restarts
學習率調度器熱身比例：0.08
訓練輪數：3
混合精度訓練：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	精確率	召回率	F1值	準確率
0.2474	0.4662	100	0.2283	0.4911	0.5164	0.5035	0.9284
0.2039	0.9324	200	0.1942	0.5495	0.5836	0.5661	0.9345
0.1949	1.3963	300	0.1855	0.5591	0.6348	0.5945	0.9359
0.19	1.8625	400	0.1800	0.5604	0.6279	0.5922	0.9361
0.1769	2.3263	500	0.1761	0.5806	0.6262	0.6025	0.9381
0.1765	2.7925	600	0.1754	0.5849	0.6311	0.6071	0.9386

框架版本

Transformers 4.49.0
Pytorch 2.5.1+cu124
Datasets 3.3.2
Tokenizers 0.21.0

📄 許可證

本模型採用 MIT 許可證。

📊 模型信息

屬性	詳情
模型名稱	烏茲別克語命名實體識別模型
基礎模型	[FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large)
數據集	risqaliyevds/uzbek_ner
評估指標	精確率、召回率、F1值、準確率