🚀 uk_ner_web_trf_13class
uk_ner_web_trf_13class 是一个经过微调的模型,它基于 Roberta Large Ukrainian model,可直接用于 命名实体识别(Named Entity Recognition),并在乌克兰语的命名实体识别任务中达到了新的 最优性能(SoA)。该模型性能出色,经过训练能够识别 十三种 实体类型。
🚀 快速开始
本模型可直接用于乌克兰语的命名实体识别任务。你可以通过以下方式使用它:
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("uk_ner_web_trf_13class")
model = AutoModelForTokenClassification.from_pretrained("uk_ner_web_trf_13class")
text = "Президент Володимир Зеленський пояснив, що наразі діалог із режимом Володимира путіна неможливий, адже агресор обрав курс на знищення українського народу. За словами Зеленського цей режим РФ виявляє неповагу до суверенітету і територіальної цілісності України."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
✨ 主要特性
- 性能卓越:在乌克兰语的命名实体识别任务中达到新的最优性能。
- 实体类型丰富:能够识别十三种不同类型的实体。
📚 详细文档
模型描述
uk_ner_web_trf_13class 是基于 Roberta Large Ukrainian model 微调而来,可用于乌克兰语的命名实体识别任务。
可识别的实体类型
- ORG(组织):公司、品牌、机构、组织、协会(包括宗教、非正式、非营利性组织)、政党、人民团体或特定项目(如会议、乐队、电视节目等)的名称。例如:UNESCO。
- PERS(人物):人物的姓名,人物可以是人类、书籍角色或类人生物(如吸血鬼、幽灵、美人鱼等)。例如:Marquis de Sade。
- LOC(地点):地理名称,包括地区、村庄、城市、州、县、国家、大陆、河流、湖泊、海洋、山脉等的名称。例如:Ukraine。
- MON(货币金额):包括货币的金额。例如:$40, 1 mln hryvnias。
- PCT(百分比):包括百分号或“percent”一词的百分比值。例如:10%。
- DATE(日期):完整或不完整的日历日期,可能包括世纪、年、月、日。例如:last week, 10.12.1999。
- TIME(时间):文本或数字形式的时间戳。例如:half past six, 18:30。
- PERIOD(时间段):时间段,可能由两个日期组成。例如:a few months, 2014 - 2015。
- JOB(职位):职位名称。例如:member of parliament, ophthalmologist。
- DOC(文档):文档的唯一名称,包括合同、订单、账单、采购单等的名称。例如:procurement contract CW2244226。
- QUANT(数量):带有计量单位的数量,如重量、距离、尺寸等。例如:3 kilograms, a hundred miles。
- ART(人造物品):人造产品的名称,如书籍、歌曲、汽车或三明治等。例如:Mona Lisa, iPhone。
- MISC(其他):上述列表未涵盖的任何其他实体,如节日名称、网站、战役、战争、体育赛事、飓风等。例如:Black Friday。
训练数据集
该模型在 NER - UK 2.0 dataset 上进行了微调,该数据集由 lang - uk 发布。
其他相关模型
另一个基于transformer的、为SpaCy训练的 四分类模型 可在 此处 获取。
📄 许可证
本模型采用 MIT 许可证。
模型指标
属性 |
详情 |
模型类型 |
uk_ner_web_trf_13class(基于Roberta Large Ukrainian model微调) |
训练数据 |
NER - UK 2.0 dataset |
NER 准确率 |
0.8977982743 |
NER 召回率 |
0.8860666569 |
NER F 分数 |
0.891893889 |
版权信息
Copyright: Dmytro Chaplynskyi, Mariana Romanyshyn, lang - uk project, 2024
引用信息
引用信息待补充。