🚀 uk_ner_web_trf_13class
uk_ner_web_trf_13class 是一個經過微調的模型,它基於 Roberta Large Ukrainian model,可直接用於 命名實體識別(Named Entity Recognition),並在烏克蘭語的命名實體識別任務中達到了新的 最優性能(SoA)。該模型性能出色,經過訓練能夠識別 十三種 實體類型。
🚀 快速開始
本模型可直接用於烏克蘭語的命名實體識別任務。你可以通過以下方式使用它:
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("uk_ner_web_trf_13class")
model = AutoModelForTokenClassification.from_pretrained("uk_ner_web_trf_13class")
text = "Президент Володимир Зеленський пояснив, що наразі діалог із режимом Володимира путіна неможливий, адже агресор обрав курс на знищення українського народу. За словами Зеленського цей режим РФ виявляє неповагу до суверенітету і територіальної цілісності України."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
✨ 主要特性
- 性能卓越:在烏克蘭語的命名實體識別任務中達到新的最優性能。
- 實體類型豐富:能夠識別十三種不同類型的實體。
📚 詳細文檔
模型描述
uk_ner_web_trf_13class 是基於 Roberta Large Ukrainian model 微調而來,可用於烏克蘭語的命名實體識別任務。
可識別的實體類型
- ORG(組織):公司、品牌、機構、組織、協會(包括宗教、非正式、非營利性組織)、政黨、人民團體或特定項目(如會議、樂隊、電視節目等)的名稱。例如:UNESCO。
- PERS(人物):人物的姓名,人物可以是人類、書籍角色或類人生物(如吸血鬼、幽靈、美人魚等)。例如:Marquis de Sade。
- LOC(地點):地理名稱,包括地區、村莊、城市、州、縣、國家、大陸、河流、湖泊、海洋、山脈等的名稱。例如:Ukraine。
- MON(貨幣金額):包括貨幣的金額。例如:$40, 1 mln hryvnias。
- PCT(百分比):包括百分號或“percent”一詞的百分比值。例如:10%。
- DATE(日期):完整或不完整的日曆日期,可能包括世紀、年、月、日。例如:last week, 10.12.1999。
- TIME(時間):文本或數字形式的時間戳。例如:half past six, 18:30。
- PERIOD(時間段):時間段,可能由兩個日期組成。例如:a few months, 2014 - 2015。
- JOB(職位):職位名稱。例如:member of parliament, ophthalmologist。
- DOC(文檔):文檔的唯一名稱,包括合同、訂單、賬單、採購單等的名稱。例如:procurement contract CW2244226。
- QUANT(數量):帶有計量單位的數量,如重量、距離、尺寸等。例如:3 kilograms, a hundred miles。
- ART(人造物品):人造產品的名稱,如書籍、歌曲、汽車或三明治等。例如:Mona Lisa, iPhone。
- MISC(其他):上述列表未涵蓋的任何其他實體,如節日名稱、網站、戰役、戰爭、體育賽事、颶風等。例如:Black Friday。
訓練數據集
該模型在 NER - UK 2.0 dataset 上進行了微調,該數據集由 lang - uk 發佈。
其他相關模型
另一個基於transformer的、為SpaCy訓練的 四分類模型 可在 此處 獲取。
📄 許可證
本模型採用 MIT 許可證。
模型指標
屬性 |
詳情 |
模型類型 |
uk_ner_web_trf_13class(基於Roberta Large Ukrainian model微調) |
訓練數據 |
NER - UK 2.0 dataset |
NER 準確率 |
0.8977982743 |
NER 召回率 |
0.8860666569 |
NER F 分數 |
0.891893889 |
版權信息
Copyright: Dmytro Chaplynskyi, Mariana Romanyshyn, lang - uk project, 2024
引用信息
引用信息待補充。