🚀 烏茲別克語命名實體識別(NER)模型
本模型專為烏茲別克語文本的命名實體識別(NER)而設計,能夠識別多種命名實體類別,包括人物、地點、組織、日期等,基於XLM - RoBERTa大模型架構構建。
🚀 快速開始
若要從Hugging Face平臺下載並使用該模型,可使用以下代碼:
from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
model_name_or_path = "risqaliyevds/xlm-roberta-large-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path).to("cuda")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
✨ 主要特性
- 多類別識別:該模型能夠識別多種命名實體類別,包括但不限於地點、組織、人物、日期、貨幣金額、百分比等。
- 高精度:模型在新聞數據集上進行訓練,在新聞文本的命名實體識別方面具有較高的準確率。
💻 使用示例
基礎用法
from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
model_name_or_path = "risqaliyevds/xlm-roberta-large-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path).to("cuda")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
text = "Shavkat Mirziyoyev Rossiyada rasmiy safarda bo'ldi."
ner = nlp(text)
for entity in ner:
print(entity)
示例文本:"Shavkat Mirziyoyev Rossiyada rasmiy safarda bo'ldi."
結果:
[{'entity': 'B-PERSON', 'score': 0.88995147, 'index': 1, 'word': '▁Shavkat', 'start': 0, 'end': 7},
{'entity': 'I-PERSON', 'score': 0.980681, 'index': 2, 'word': '▁Mirziyoyev', 'start': 8, 'end': 18},
{'entity': 'B-GPE', 'score': 0.8208886, 'index': 3, 'word': '▁Rossiya', 'start': 19, 'end': 26}]
📚 詳細文檔
模型可識別的類別
該模型可以識別以下命名實體類別:
- LOC(地點名稱)
- ORG(組織名稱)
- PERSON(人物名稱)
- DATE(日期表達)
- MONEY(貨幣金額)
- PERCENT(百分比值)
- QUANTITY(數量)
- TIME(時間表達)
- PRODUCT(產品名稱)
- EVENT(事件名稱)
- WORK_OF_ART(藝術作品標題)
- LANGUAGE(語言名稱)
- CARDINAL(基數)
- ORDINAL(序數)
- NORP(國籍或宗教/政治團體)
- FACILITY(設施名稱)
- LAW(法律或法規)
- GPE(國家、城市、州)
注意事項
⚠️ 重要提示
該模型在新聞數據集上進行訓練,主要在新聞文本的命名實體識別方面具有較高的準確率。
📄 許可證
本模型以開源形式提供,所有用戶均可免費使用。
📞 聯繫我們
如果您有任何問題或需要更多信息,請與我們聯繫。
領英:Riskaliev Murad
🔚 總結
烏茲別克語命名實體識別模型在識別文本中的各種命名實體方面非常有效。其高精度和廣泛的類別使其在學術研究、文檔分析等眾多領域都很有用。