🚀 乌兹别克语命名实体识别(NER)模型
本模型专为乌兹别克语文本的命名实体识别(NER)而设计,能够识别多种命名实体类别,包括人物、地点、组织、日期等,基于XLM - RoBERTa大模型架构构建。
🚀 快速开始
若要从Hugging Face平台下载并使用该模型,可使用以下代码:
from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
model_name_or_path = "risqaliyevds/xlm-roberta-large-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path).to("cuda")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
✨ 主要特性
- 多类别识别:该模型能够识别多种命名实体类别,包括但不限于地点、组织、人物、日期、货币金额、百分比等。
- 高精度:模型在新闻数据集上进行训练,在新闻文本的命名实体识别方面具有较高的准确率。
💻 使用示例
基础用法
from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
model_name_or_path = "risqaliyevds/xlm-roberta-large-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path).to("cuda")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
text = "Shavkat Mirziyoyev Rossiyada rasmiy safarda bo'ldi."
ner = nlp(text)
for entity in ner:
print(entity)
示例文本:"Shavkat Mirziyoyev Rossiyada rasmiy safarda bo'ldi."
结果:
[{'entity': 'B-PERSON', 'score': 0.88995147, 'index': 1, 'word': '▁Shavkat', 'start': 0, 'end': 7},
{'entity': 'I-PERSON', 'score': 0.980681, 'index': 2, 'word': '▁Mirziyoyev', 'start': 8, 'end': 18},
{'entity': 'B-GPE', 'score': 0.8208886, 'index': 3, 'word': '▁Rossiya', 'start': 19, 'end': 26}]
📚 详细文档
模型可识别的类别
该模型可以识别以下命名实体类别:
- LOC(地点名称)
- ORG(组织名称)
- PERSON(人物名称)
- DATE(日期表达)
- MONEY(货币金额)
- PERCENT(百分比值)
- QUANTITY(数量)
- TIME(时间表达)
- PRODUCT(产品名称)
- EVENT(事件名称)
- WORK_OF_ART(艺术作品标题)
- LANGUAGE(语言名称)
- CARDINAL(基数)
- ORDINAL(序数)
- NORP(国籍或宗教/政治团体)
- FACILITY(设施名称)
- LAW(法律或法规)
- GPE(国家、城市、州)
注意事项
⚠️ 重要提示
该模型在新闻数据集上进行训练,主要在新闻文本的命名实体识别方面具有较高的准确率。
📄 许可证
本模型以开源形式提供,所有用户均可免费使用。
📞 联系我们
如果您有任何问题或需要更多信息,请与我们联系。
领英:Riskaliev Murad
🔚 总结
乌兹别克语命名实体识别模型在识别文本中的各种命名实体方面非常有效。其高精度和广泛的类别使其在学术研究、文档分析等众多领域都很有用。