🚀 GLiNERアラビア語モデル (v2.1)
gliner_arabic-v2.1
は、アラビア語テキストを高精度かつ堅牢に処理するために設計された固有表現認識(NER)モデルです。urchade/gliner_large-v2
ベースモデルを基に構築され、このバージョンはアラビア語の幅広いエンティティを識別する能力を高めるためにファインチューニングされています。このため、アラビア語データセットでの豊富なエンティティ抽出を必要とするアプリケーションに適しています。また、限定的な範囲で英語もサポートしており、多言語のユースケースにも対応しています。
このモデルはGLiNERファミリーの一部であり、Generalized Language-augmented Multimodal Entity Recognitionフレームワークを活用して、トークン分類タスクにおいて最先端の性能を発揮します。
✨ 主な機能
- 豊富なエンティティ認識:アラビア語テキストに特化した多様なエンティティを検出します。人物、組織、場所、日付などを含みます。
- バイリンガルサポート:主にアラビア語(
ar
)に最適化されており、英語(en
)も補助的にサポートしています。
- 高性能:実世界のアラビア語自然言語処理アプリケーションにおける堅牢性と精度のためにファインチューニングされています。
- Apache-2.0ライセンス:商用および非商用利用が自由にできます。
📦 インストール
gliner_arabic-v2.1
モデルを使用するには、gliner
ライブラリをインストールする必要があります。pipを使って以下のコマンドでインストールできます。
pip install gliner
urchAde/gliner_large-v2
ベースモデルと互換性のある必要な依存関係がインストールされていることを確認してください。
💻 使用例
基本的な使用法
以下は、PythonでNERタスクにこのモデルをロードして使用する例です。
from gliner import GLiNER
model = GLiNER.from_pretrained("NAMAA-Space/gliner_arabic-v2.1")
text = "غزة، مدينة يصمد شعبها الفلسطيني المحاصر بقلوب كالصخر، يواجهون الإبادة الجماعية من الكيان الصهيوني برعاية أمريكية وخذلان العالم أجمع، حيث يقاوم أهلها، بقيادة يحيى السنوار ومحمد الضيف، مع فصائل حماس تحت القصف والحصار والموت منذ 7 أكتوبر 2023، وسط صمت الأمم المتحدة والاتحاد الأوروبي، بينما تجري مفاوضات في القاهرة بوساطة مصر وقطر."
labels = ["شخص", "منظمة", "تاريخ", "موقع"]
entities = model.predict_entities(text, labels, threshold=0.5)
for entity in entities:
print(f"Entity: {entity['text']} | Label: {entity['label']} | Score: {entity['score']:.3f}")
出力例
Entity: غزة | Label: موقع | Score: 0.797
Entity: الكيان الصهيوني | Label: منظمة | Score: 0.783
Entity: يحيى السنوار | Label: شخص | Score: 0.917
Entity: فصائل حماس | Label: منظمة | Score: 0.551
Entity: حماس | Label: منظمة | Score: 0.588
Entity: 7 أكتوبر 2023 | Label: تاريخ | Score: 0.837
Entity: الأمم المتحدة | Label: منظمة | Score: 0.823
Entity: القاهرة | Label: موقع | Score: 0.773
Entity: مصر | Label: موقع | Score: 0.588
📚 ドキュメント
モデル詳細
プロパティ |
詳細 |
モデル名 |
NAMAA-Space/gliner_arabic-v2.1 |
ライセンス |
Apache-2.0 |
言語 |
アラビア語 (ar )、英語 (en ) |
ベースモデル |
urchade/gliner_multi-v2.1 |
パイプラインタグ |
トークン分類 |
タグ |
GLiNER、アラビア語、NER |
アプリケーション
gliner_arabic-v2.1
モデルは、以下の用途に最適です。
- アラビア語のニュース記事、ソーシャルメディア、法務文書からのエンティティ抽出。
- アラビア語コンテンツの知識グラフ構築。
- エンティティ認識機能を備えた検索および推薦システムの強化。
- アラビア語と英語が混在する多言語アプリケーションのサポート。
制限事項
- 主にアラビア語に特化:モデルは英語もサポートしていますが、性能はアラビア語テキストに最適化されています。英語のエンティティ認識は、英語ネイティブのモデルと比べると劣る場合があります。
- 文脈依存性:性能はテキストの複雑さや曖昧なエンティティの存在によって異なる場合があります。
- ラベル依存性:モデルは予測のために事前定義されたエンティティラベルを必要とするため、オープンドメインの設定での柔軟性が制限される場合があります。
連絡先
質問、問題の報告、または貢献については、Hugging Faceモデルページを通じて連絡するか、リポジトリにissueを作成してください。
謝辞
このモデルは、urchade/gliner_large-v2
モデルとGLiNERフレームワークの基礎的な仕事に基づいて構築されています。アラビア語自然言語処理に貢献してくれたオープンソースコミュニティに感謝します。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。