🚀 gliner_small_news-v2.1 モデルカード
このモデルは、GLiNER をファインチューニングしたもので、幅広いトピックにおける精度向上、特に長文のニュースからのエンティティ抽出精度の向上を目指しています。下の表に示すように、このファインチューニングにより、18のベンチマークデータセットでベースのGLiNERモデルのゼロショット精度が最大7.5%向上しています。

このモデルの基礎となるデータセット AskNews-NER-v0 は、国、言語、トピック、時間の多様性を強制することで、グローバルな視点を多様化する目的で設計されています。このモデルをファインチューニングするために使用されたすべてのデータは合成的に生成されています。オープンウェブのニュース記事の翻訳・要約にはWizardLM 13B v1.2が使用され、エンティティ抽出にはLlama3 70b instructが使用されています。多様化とファインチューニングの方法については、ArXiv の論文で紹介されています。
🚀 クイックスタート
以下のコードを使用して、モデルを使い始めることができます。
from gliner import GLiNER
model = GLiNER.from_pretrained("EmergentMethods/gliner_small_news-v2.1")
text = """
The Chihuahua State Public Security Secretariat (SSPE) arrested 35-year-old Salomón C. T. in Ciudad Juárez, found in possession of a stolen vehicle, a white GMC Yukon, which was reported stolen in the city's streets. The arrest was made by intelligence and police analysis personnel during an investigation in the border city. The arrest is related to a previous detention on February 6, which involved armed men in a private vehicle. The detainee and the vehicle were turned over to the Chihuahua State Attorney General's Office for further investigation into the case.
"""
labels = ["person", "location", "date", "event", "facility", "vehicle", "number", "organization"]
entities = model.predict_entities(text, labels)
for entity in entities:
print(entity["text"], "=>", entity["label"])
出力:
Chihuahua State Public Security Secretariat => organization
SSPE => organization
35-year-old => number
Salomón C. T. => person
Ciudad Juárez => location
GMC Yukon => vehicle
February 6 => date
Chihuahua State Attorney General's Office => organization
💻 使用例
基本的な使用法
上記のコードが基本的な使用例です。このコードでは、指定したラベルに基づいてテキストからエンティティを抽出しています。
📚 ドキュメント
モデルの詳細
モデルの説明
このニュース用のファインチューニングに使用された合成データは、AskNews API から取得されました。国、言語、トピック、時間にわたる多様性を強制しています。
国:

エンティティの種類:

トピック:

- 開発者: Emergent Methods
- 資金提供元: Emergent Methods
- 共有者: Emergent Methods
- モデルの種類: microsoft/deberta
- 言語 (NLP): 英語 (en) (英語のテキストと、スペイン語 (es)、ポルトガル語 (pt)、ドイツ語 (de)、ロシア語 (ru)、フランス語 (fr)、アラビア語 (ar)、イタリア語 (it)、ウクライナ語 (uk)、ノルウェー語 (no)、スウェーデン語 (sv)、デンマーク語 (da) からの翻訳)
- ライセンス: Apache 2.0
- ファインチューニング元のモデル: GLiNER
モデルのソース [オプション]
- リポジトリ: 追加予定
- 論文: 追加予定
- デモ: 追加予定
使用方法
直接使用
このモデルは、名前が示す通り、一般的なエンティティ抽出を目的としています。このモデルはニュースデータでファインチューニングされていますが、18のベンチマークデータセットで最大7.5%の精度向上を達成しています。これは、幅広く多様なデータセットが、より多くのエンティティタイプを認識して抽出するのに役立っていることを意味します。
このモデルは非常にコンパクトで、高スループットの本番環境での使用に適しています。これが、このモデルをApache 2.0ライセンスで提供しているもう1つの理由です。現在、AskNews はこのファインチューニングモデルをシステム内のエンティティ抽出に使用しています。
バイアス、リスク、および制限事項
このデータセットの目標はバイアスを減らし、多様性を向上させることですが、依然として西洋の言語や国にバイアスがかかっています。この制限は、翻訳と要約生成に使用されたLlama2の能力に起因しています。さらに、Llama2の学習データに存在するバイアスは、オープンウェブの記事を要約するためにLlama2が使用されているため、このデータセットにも存在します。さらに、エンティティ抽出にLlama3が使用されているため、Llama3に存在するバイアスもこのデータセットに存在します。

トレーニングの詳細
トレーニングデータセットは AskNews-NER-v0 です。
その他のトレーニングの詳細は、付随する論文 で確認できます。
環境への影響
引用
BibTeX:
追加予定
APA:
追加予定
モデルの作成者
Elin Törnquist, Emergent Methods elin at emergentmethods.ai
Robert Caulk, Emergent Methods rob at emergentmethods.ai
モデルの連絡先
Elin Törnquist, Emergent Methods elin at emergentmethods.ai
Robert Caulk, Emergent Methods rob at emergentmethods.ai
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。