🚀 ウズベク語用の固有表現抽出 (NER) モデル
このモデルは、ウズベク語のテキストにおける固有表現抽出 (NER) を目的として設計されています。このモデルは、人物、場所、組織、日付など、様々なカテゴリの固有表現を識別することができます。このモデルは、XLM - RoBERTa largeアーキテクチャに基づいています。
🚀 クイックスタート
このウズベク語用のNERモデルは、ウズベク語テキスト内の固有表現を効果的に識別します。以下の手順でモデルを使用できます。
モデルの読み込みと使用
Hugging Faceプラットフォームからモデルをダウンロードして使用するには、以下のコードを使用できます。
from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
model_name_or_path = "risqaliyevds/xlm-roberta-large-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path).to("cuda")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
✨ 主な機能
モデルについて
このモデルは、ウズベク語テキストの固有表現抽出 (NER) を行うために設計されています。モデルは、人物、場所、組織、日付など、様々なカテゴリの固有表現を識別することができます。このモデルは、XLM - RoBERTa largeアーキテクチャに基づいています。
注意事項
このモデルは、NEWSデータセットで学習されており、主にNEWSテキストのNER識別に高い精度を持っています。
カテゴリ
このモデルは、以下のNERカテゴリを識別することができます。
- LOC (場所名)
- ORG (組織名)
- PERSON (人名)
- DATE (日付表現)
- MONEY (金額)
- PERCENT (パーセント値)
- QUANTITY (数量)
- TIME (時間表現)
- PRODUCT (製品名)
- EVENT (イベント名)
- WORK_OF_ART (芸術作品のタイトル)
- LANGUAGE (言語名)
- CARDINAL (基数)
- ORDINAL (序数)
- NORP (国籍または宗教・政治グループ)
- FACILITY (施設名)
- LAW (法律または規制)
- GPE (国、都市、州)
💻 使用例
基本的な使用法
モデルの動作を示すために、いくつかの例を示します。
from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
model_name_or_path = "risqaliyevds/xlm-roberta-large-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path).to("cuda")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
text = "Shavkat Mirziyoyev Rossiyada rasmiy safarda bo'ldi."
ner = nlp(text)
for entity in ner:
print(entity)
例のテキスト: "Shavkat Mirziyoyev Rossiyada rasmiy safarda bo'ldi."
結果:
[{'entity': 'B-PERSON', 'score': 0.88995147, 'index': 1, 'word': '▁Shavkat', 'start': 0, 'end': 7},
{'entity': 'I-PERSON', 'score': 0.980681, 'index': 2, 'word': '▁Mirziyoyev', 'start': 8, 'end': 18},
{'entity': 'B-GPE', 'score': 0.8208886, 'index': 3, 'word': '▁Rossiya', 'start': 19, 'end': 26}]
📚 ドキュメント
連絡先
何か質問がある場合や、より詳細な情報が必要な場合は、お問い合わせください。
LinkedIn: Riskaliev Murad
📄 ライセンス
このモデルはオープンソースとして提供されており、すべてのユーザーが無料で使用できます。
まとめ
ウズベク語用のNERモデルは、テキスト内の様々な固有表現を識別するのに有効です。高い精度と幅広いカテゴリにより、学術研究、ドキュメント分析など、多くの分野で役立ちます。