🚀 命名實體識別(NER)-RuBERT-tiny-RuNews
本項目專注於俄語新聞的命名實體識別(NER)任務,旨在從俄語新聞文本中精準識別並分類出各類實體。
模型基於 RuBERT-tiny2 進行微調,在 Collection3 數據集上訓練,該數據集涵蓋了豐富的俄語新聞文本。模型能夠有效識別出人名、組織名、地名等實體,在準確率、F1值、精確率和召回率等指標上表現出色。
✨ 主要特性
實體類型
實體類型 |
詳情 |
PER |
人名 |
ORG |
組織名 |
LOC |
地名 |
GEOPOLIT |
地緣政治相關實體(如國家、地區等) |
MEDIA |
媒體相關實體 |
評估指標
指標 |
數值 |
精確率(Precision) |
0.793 |
召回率(Recall) |
0.914 |
F1值(F1-score) |
0.849 |
準確率(Accuracy) |
0.972 |
📦 安裝指南
暫未提供安裝步驟相關內容。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
label2id = {
'O': 0,
'B-GEOPOLIT': 1, 'I-GEOPOLIT': 2,
'B-MEDIA': 3, 'I-MEDIA': 4,
'B-LOC': 5, 'I-LOC': 6,
'B-ORG': 7, 'I-ORG': 8,
'B-PER': 9, 'I-PER': 10
}
id2label = {v: k for k, v in label2id.items()}
model_id = "r1char9/ner-rubert-tiny-RuNews"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForTokenClassification.from_pretrained(
model_id,
num_labels=len(label2id),
id2label=id2label,
label2id=label2id
)
ner_pipeline = pipeline(
"ner",
model=model,
tokenizer=tokenizer,
aggregation_strategy="simple"
)
text = (
"–ì–µ–Ω–µ—Ä–∞–ª—å–Ω—ã–π –¥–∏—Ä–µ–∫—Ç–æ—Ä –°–±–µ—Ä–±–∞–Ω–∫–∞ –ì–µ—Ä–º–∞–Ω –ì—Ä–µ—Ñ –Ω–∞ –∫–æ–Ω—Ñ–µ—Ä–µ–Ω—Ü–∏–∏ –≤ –ú–æ—Å–∫–≤–µ –∑–∞—è–≤–∏–ª, "
"—á—Ç–æ —Å–æ—Ç—Ä—É–¥–Ω–∏—á–µ—Å—Ç–≤–æ —Å –Ø–Ω–¥–µ–∫—Å–æ–º –≤ –æ–±–ª–∞—Å—Ç–∏ –∏—Å–∫—É—Å—Å—Ç–≤–µ–Ω–Ω–æ–≥–æ –∏–Ω—Ç–µ–ª–ª–µ–∫—Ç–∞ –≤—ã—Ö–æ–¥–∏—Ç –Ω–∞ –Ω–æ–≤—ã–π —É—Ä–æ–≤–µ–Ω—å. "
"–û–Ω —Ç–∞–∫–∂–µ –æ—Ç–º–µ—Ç–∏–ª, —á—Ç–æ –ø—Ä–∞–≤–∏—Ç–µ–ª—å—Å—Ç–≤–æ –†–æ—Å—Å–∏–π—Å–∫–æ–π –§–µ–¥–µ—Ä–∞—Ü–∏–∏ –ø–æ–¥–¥–µ—Ä–∂–∏–≤–∞–µ—Ç —Ä–∞–∑–≤–∏—Ç–∏–µ —Ü–∏—Ñ—Ä–æ–≤–æ–π —ç–∫–æ–Ω–æ–º–∏–∫–∏, "
"–æ—Å–æ–±–µ–Ω–Ω–æ –≤ —Ä–∞–º–∫–∞—Ö –ï–≤—Ä–∞–∑–∏–π—Å–∫–æ–≥–æ —ç–∫–æ–Ω–æ–º–∏—á–µ—Å–∫–æ–≥–æ —Å–æ—é–∑–∞."
)
results = ner_pipeline(text)
for entity in results:
print(entity)
高級用法
暫未提供高級用法相關代碼內容。
📚 詳細文檔
暫未提供詳細說明相關內容。
🔧 技術細節
暫未提供技術實現細節相關內容。
📄 許可證
本項目採用 MIT 許可證。