roberta-uz开源乌兹别克语命名实体识别模型 - 免费支持21种实体类型识别

首页

Roberta Uz

由 mustafoyev202 开发

基于XLM-RoBERTa-large微调的乌兹别克语命名实体识别模型，支持21种实体类型识别

序列标注

Transformers

其他开源协议:MIT #乌兹别克语NER #多实体识别 #XLM-RoBERTa微调

下载量 21

发布时间 : 2/23/2025

模型简介

本模型是针对乌兹别克语优化的命名实体识别(NER)模型，能够识别文本中的人名、地名、组织名等21类实体。基于FacebookAI的xlm-roberta-large架构微调，在乌兹别克语NER数据集上训练。

模型特点

多类别实体识别

支持识别21种实体类型，包括人物、地点、组织、日期、货币等

跨语言预训练优势

基于XLM-RoBERTa-large架构，继承了强大的跨语言表示能力

高效微调

采用余弦退火学习率调度和梯度累积技术优化训练过程

模型能力

乌兹别克语文本实体识别

BIO格式实体标注

多类别实体分类

使用案例

文本分析

新闻实体提取

从乌兹别克语新闻中提取人名、组织名和地名等关键信息

F1值达0.6071

文档结构化处理

自动化处理乌兹别克语文档，识别并标注各类命名实体

商业智能

客户数据分析

从乌兹别克语客户反馈中提取公司名、产品名等实体

🚀 乌兹别克语命名实体识别模型

本模型是基于乌兹别克语命名实体识别（NER）数据集对 [FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large) 进行微调后的版本。它在评估集上取得了以下成绩：

损失值：0.1754
精确率：0.5848
召回率：0.6313
F1值：0.6071
准确率：0.9386

🚀 快速开始

本模型是 [FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large) 在乌兹别克语NER数据集上的微调版本。它在评估集上取得了如下结果：

损失：0.1754
精确率：0.5848
召回率：0.6313
F1值：0.6071
准确率：0.9386

📦 安装指南

文档未提供安装步骤，可参考 transformers 库的官方安装指南进行安装。

💻 使用示例

基础用法

# 导入必要的库
from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch

# 自定义标签映射
custom_id2label = {
    0: "O", 1: "B-CARDINAL", 2: "I-CARDINAL", 3: "B-DATE", 4: "I-DATE",
    5: "B-EVENT", 6: "I-EVENT", 7: "B-GPE", 8: "I-GPE", 9: "B-LOC", 10: "I-LOC",
    11: "B-MONEY", 12: "I-MONEY", 13: "B-ORDINAL", 14: "B-ORG", 15: "I-ORG",
    16: "B-PERCENT", 17: "I-PERCENT", 18: "B-PERSON", 19: "I-PERSON",
    20: "B-TIME", 21: "I-TIME"
}
custom_label2id = {v: k for k, v in custom_id2label.items()}

# 模型名称
model_name = "mustafoyev202/roberta-uz"
# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 加载模型
model = AutoModelForTokenClassification.from_pretrained(model_name, num_labels=23)

# 设置模型的标签映射
model.config.id2label = custom_id2label
model.config.label2id = custom_label2id

# 待处理的文本
text = "Tesla kompaniyasi AQSHda joylashgan."

# 对文本进行分词
tokens = tokenizer(text.split(), return_tensors="pt", is_split_into_words=True)

# 进行推理
with torch.no_grad():
    logits = model(**tokens).logits

# 获取预测的标签ID
predicted_token_class_ids = logits.argmax(-1).squeeze().tolist()

# 获取单词ID
word_ids = tokens.word_ids()
previous_word_id = None
word_predictions = {}

# 处理预测结果
for i, word_id in enumerate(word_ids):
    if word_id is not None:
        label = custom_id2label[predicted_token_class_ids[i]]
        if word_id != previous_word_id:  # 新单词
            word_predictions[word_id] = label
        previous_word_id = word_id

# 分割文本为单词
words = text.split()  # 简单分割
# 最终预测结果
final_predictions = [(word, word_predictions.get(i, "O")) for i, word in enumerate(words)]

# 打印预测结果
print("Predictions:")
for word, label in final_predictions:
    print(f"{word}: {label}")

# 计算损失
labels = torch.tensor([predicted_token_class_ids]).unsqueeze(0)  # 调整维度
loss = model(**tokens, labels=labels).loss
print("\nLoss:", round(loss.item(), 2))

🔧 技术细节

训练超参数

训练过程中使用了以下超参数：

学习率：1e - 05
训练批次大小：8
评估批次大小：8
随机种子：42
梯度累积步数：8
总训练批次大小：64
优化器：使用 OptimizerNames.ADAMW_TORCH，betas=(0.9, 0.999)，epsilon=1e - 08，无额外优化器参数
学习率调度器类型：cosine_with_restarts
学习率调度器热身比例：0.08
训练轮数：3
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	精确率	召回率	F1值	准确率
0.2474	0.4662	100	0.2283	0.4911	0.5164	0.5035	0.9284
0.2039	0.9324	200	0.1942	0.5495	0.5836	0.5661	0.9345
0.1949	1.3963	300	0.1855	0.5591	0.6348	0.5945	0.9359
0.19	1.8625	400	0.1800	0.5604	0.6279	0.5922	0.9361
0.1769	2.3263	500	0.1761	0.5806	0.6262	0.6025	0.9381
0.1765	2.7925	600	0.1754	0.5849	0.6311	0.6071	0.9386

框架版本

Transformers 4.49.0
Pytorch 2.5.1+cu124
Datasets 3.3.2
Tokenizers 0.21.0

📄 许可证

本模型采用 MIT 许可证。

📊 模型信息

属性	详情
模型名称	乌兹别克语命名实体识别模型
基础模型	[FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large)
数据集	risqaliyevds/uzbek_ner
评估指标	精确率、召回率、F1值、准确率