🚀 gliner_large_news-v2.1 モデルカード
このモデルは、GLiNER をファインチューニングしたもので、幅広いトピックにおける精度向上、特に長文のニュースからのエンティティ抽出精度の向上を目指しています。下の表に示すように、このファインチューニングにより、ベースの GLiNER モデルのゼロショット精度が 18 のベンチマークデータセットで最大 7.5% 向上しています。

基礎となるデータセット AskNews-NER-v0 は、国、言語、トピック、時間の多様性を強制することで、グローバルな視点を多様化することを目的として設計されています。このモデルをファインチューニングするために使用されたすべてのデータは合成生成されています。オープンウェブのニュース記事の翻訳/要約には WizardLM 13B v1.2 が使用され、エンティティ抽出には Llama3 70b instruct が使用されました。多様化とファインチューニングの方法は、ArXiv の論文で紹介されています。
🚀 クイックスタート
モデルの使用方法
from gliner import GLiNER
model = GLiNER.from_pretrained("EmergentMethods/gliner_large_news-v2.1")
text = """
The Chihuahua State Public Security Secretariat (SSPE) arrested 35-year-old Salomón C. T. in Ciudad Juárez, found in possession of a stolen vehicle, a white GMC Yukon, which was reported stolen in the city's streets. The arrest was made by intelligence and police analysis personnel during an investigation in the border city. The arrest is related to a previous detention on February 6, which involved armed men in a private vehicle. The detainee and the vehicle were turned over to the Chihuahua State Attorney General's Office for further investigation into the case.
"""
labels = ["person", "location", "date", "event", "facility", "vehicle", "number", "organization"]
entities = model.predict_entities(text, labels)
for entity in entities:
print(entity["text"], "=>", entity["label"])
出力:
Chihuahua State Public Security Secretariat => organization
SSPE => organization
35-year-old => number
Salomón C. T. => person
Ciudad Juárez => location
GMC Yukon => vehicle
February 6 => date
Chihuahua State Attorney General's Office => organization
✨ 主な機能
このモデルは、一般的なエンティティ抽出を目的としています。ニュースデータを用いてファインチューニングされたことで、18 のベンチマークデータセットで最大 7.5% の精度向上が見られます。これは、幅広く多様なデータセットが、より多くのエンティティタイプの認識と抽出に役立っていることを示しています。また、モデルが非常にコンパクトであり、高スループットのプロダクションユースケースにも使用できます。
📚 ドキュメント
モデルの詳細
モデルの説明
このニュース用にファインチューニングされたモデルの基礎となる合成データは、AskNews API から取得されました。国、言語、トピック、時間の多様性を強制しています。
国の分布:

エンティティタイプ:

トピック:

- 開発者: Emergent Methods
- 資金提供元: Emergent Methods
- 共有元: Emergent Methods
- モデルタイプ: microsoft/deberta
- 言語 (NLP): 英語 (en)(英語のテキストと、スペイン語 (es)、ポルトガル語 (pt)、ドイツ語 (de)、ロシア語 (ru)、フランス語 (fr)、アラビア語 (ar)、イタリア語 (it)、ウクライナ語 (uk)、ノルウェー語 (no)、スウェーデン語 (sv)、デンマーク語 (da) からの翻訳)
- ライセンス: Apache 2.0
- ファインチューニング元のモデル: GLiNER
モデルのソース [オプション]
- リポジトリ: 未設定
- 論文: 未設定
- デモ: 未設定
モデルの使用方法
直接使用
このモデルは、名前の通り、一般的なエンティティ抽出を目的としています。ニュースデータを用いてファインチューニングされたことで、18 のベンチマークデータセットで最大 7.5% の精度向上が見られます。これは、幅広く多様なデータセットが、より多くのエンティティタイプの認識と抽出に役立っていることを示しています。現在、AskNews がこのファインチューニングされたモデルをエンティティ抽出に使用しています。
バイアス、リスク、制限事項
データセットの目的はバイアスを減らし、多様性を向上させることですが、依然として西洋の言語や国にバイアスがあります。この制限は、翻訳と要約生成に使用された Llama2 の能力に起因しています。さらに、Llama2 の学習データに含まれるバイアスは、このデータセットにも存在します。また、エンティティ抽出に使用された Llama3 に含まれるバイアスも、このデータセットに存在します。

モデルの始め方
以下のコードを使用して、モデルを始めることができます。
学習の詳細
学習データセットは AskNews-NER-v0 です。他の学習の詳細は、付随する論文 で確認できます。
環境への影響
引用
BibTeX:
未設定
APA:
未設定
モデルの作成者
Elin Törnquist, Emergent Methods elin at emergentmethods.ai
Robert Caulk, Emergent Methods rob at emergentmethods.ai
モデルの連絡先
Elin Törnquist, Emergent Methods elin at emergentmethods.ai
Robert Caulk, Emergent Methods rob at emergentmethods.ai
📄 ライセンス
このモデルは Apache 2.0 ライセンスの下で提供されています。