🚀 烏克蘭命名實體識別模型
本項目基於預訓練模型進行微調,用於識別烏克蘭語中的命名實體,能有效識別出人名、地點、組織等信息,為烏克蘭語的信息處理提供了有力支持。
🚀 快速開始
本模型是在 [XLM - RoBERTa - Uk](https://huggingface.co/ukr - models/xlm - roberta - base - uk) 模型的基礎上,使用帶有 B - PER、I - PER、B - LOC、I - LOC、B - ORG、I - ORG 標籤的 [合成命名實體識別數據集](https://huggingface.co/datasets/ukr - models/Ukr - Synth) 進行微調得到的。
💻 使用示例
基礎用法
使用 Huggingface 的 pipeline 方法(返回帶標籤的標記):
from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-ner')
model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-ner')
ner = pipeline('ner', model=model, tokenizer=tokenizer)
ner("Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера.")
高級用法
如果您希望按單詞而不是標記來分割預測結果,可以使用以下方法(從倉庫下載腳本 get_predictions.py,它使用 tokenize_uk 包 進行分割):
from transformers import AutoTokenizer, AutoModelForTokenClassification
from get_predictions import get_word_predictions
tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-ner')
model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-ner')
get_word_predictions(model, tokenizer, ["Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."])
📄 許可證
本項目採用 MIT 許可證。
屬性 |
詳情 |
語言 |
烏克蘭語 |
標籤 |
烏克蘭語相關 |
示例文本 |
塔拉斯·舍甫琴科之墓位於卡尼夫市(切爾卡瑟州)的切爾內奇山上,這裡是著名烏克蘭詩人塔拉斯·舍甫琴科的安葬之地。自 1939 年起,山頂矗立著雕塑家馬特維·馬尼斯澤爾創作的青銅紀念碑。 |
許可證 |
MIT |