🚀 乌克兰命名实体识别模型
本项目基于预训练模型进行微调,用于识别乌克兰语中的命名实体,能有效识别出人名、地点、组织等信息,为乌克兰语的信息处理提供了有力支持。
🚀 快速开始
本模型是在 [XLM - RoBERTa - Uk](https://huggingface.co/ukr - models/xlm - roberta - base - uk) 模型的基础上,使用带有 B - PER、I - PER、B - LOC、I - LOC、B - ORG、I - ORG 标签的 [合成命名实体识别数据集](https://huggingface.co/datasets/ukr - models/Ukr - Synth) 进行微调得到的。
💻 使用示例
基础用法
使用 Huggingface 的 pipeline 方法(返回带标签的标记):
from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-ner')
model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-ner')
ner = pipeline('ner', model=model, tokenizer=tokenizer)
ner("Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера.")
高级用法
如果您希望按单词而不是标记来分割预测结果,可以使用以下方法(从仓库下载脚本 get_predictions.py,它使用 tokenize_uk 包 进行分割):
from transformers import AutoTokenizer, AutoModelForTokenClassification
from get_predictions import get_word_predictions
tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-ner')
model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-ner')
get_word_predictions(model, tokenizer, ["Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."])
📄 许可证
本项目采用 MIT 许可证。
属性 |
详情 |
语言 |
乌克兰语 |
标签 |
乌克兰语相关 |
示例文本 |
塔拉斯·舍甫琴科之墓位于卡尼夫市(切尔卡瑟州)的切尔内奇山上,这里是著名乌克兰诗人塔拉斯·舍甫琴科的安葬之地。自 1939 年起,山顶矗立着雕塑家马特维·马尼斯泽尔创作的青铜纪念碑。 |
许可证 |
MIT |