🚀 俄羅斯命名實體識別模型
本模型是一個用於識別俄語文本中命名實體(NER)的工具,基於bert-base-multilingual-cased
微調而來,能借助BIOLU標籤格式識別多種實體類型,如人名、地點和組織等,在信息提取、內容分析等NLP任務中具有重要價值。
✨ 主要特性
- 該模型是
bert-base-multilingual-cased
的微調版本,專門用於俄語文本的命名實體識別。
- 能夠使用BIOLU標籤格式識別多種實體類型,包括人名、地點和組織等。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
💻 使用示例
基礎用法
from transformers import pipeline
ner_pipe = pipeline("ner", model="Gherman/bert-base-NER-Russian")
text = "Меня зовут Сергей Иванович из Москвы."
results = ner_pipe(text)
for result in results:
print(f"Word: {result['word']}, Entity: {result['entity']}, Score: {result['score']:.4f}")
📚 詳細文檔
預期用途與侷限性
預期用途
該模型旨在識別俄語文本中的命名實體,可用於信息提取、內容分析以及下游NLP任務的文本預處理等任務。
侷限性和偏差
- 模型的性能可能會因輸入文本的領域和風格而異。
- 對於訓練過程中未見過的罕見或複雜實體名稱,模型可能難以處理。
- 模型可能會表現出訓練數據中存在的偏差。
訓練數據
該模型在 Detailed-NER-Dataset-RU by AlexKly 數據集上進行訓練。這個數據集相當不錯,推薦查看!
標籤信息
該數據集使用BIOLU格式進行標註,其中:
- B:實體的起始標記
- I:實體內的標記
- O:其他(非實體)標記
- L:實體的最後一個標記
- U:單元標記(單標記實體)
數據集中包含以下實體類型:
- 地點(LOC)標籤:
- COUNTRY
- REGION
- CITY
- DISTRICT
- STREET
- HOUSE
- 人物(PER)標籤:
- LAST_NAME
- FIRST_NAME
- MIDDLE_NAME
例如,完整的標籤可能像城市名稱起始標記的 "B - CITY",或單標記國家名稱的 "U - COUNTRY"。
訓練過程
該模型使用Hugging Face Transformers庫從bert-base-multilingual-cased
檢查點進行微調。
訓練超參數
訓練過程中使用了以下超參數:
屬性 |
詳情 |
學習率 |
2e - 5 |
訓練批次大小 |
16 |
評估批次大小 |
16 |
隨機種子 |
42 |
優化器 |
帶權重衰減修正的Adam |
學習率調度器類型 |
線性 |
訓練輪數 |
10 |
框架版本
- Transformers 4.28.1
- Pytorch 1.13.0
- Datasets 2.12.0
- Tokenizers 0.13.3
評估結果
該模型在評估集上取得了以下結果:
- 精確率:0.987843
- 召回率:0.988498
- F1分數:0.988170
倫理考量
此模型旨在用於分析俄語文本,應負責任地使用。用戶應意識到模型預測中可能存在的偏差,並謹慎使用結果,特別是在可能影響個人或群體的應用中。
📄 許可證
本項目採用MIT許可證。