🚀 gliner_medium_news-v2.1 モデルカード
このモデルは、GLiNER をファインチューニングしたもので、幅広いトピックにわたる精度向上、特に長文のニュースからのエンティティ抽出精度の向上を目指しています。下の表に示すように、このファインチューニングにより、18のベンチマークデータセットで、ベースのGLiNERモデルのゼロショット精度が最大7.5%向上しています。

このモデルの基礎となるデータセット AskNews-NER-v0 は、国、言語、トピック、時間の多様性を強制することで、グローバルな視点を多様化することを目的として設計されています。このモデルをファインチューニングするために使用されたすべてのデータは合成的に生成されました。オープンウェブのニュース記事の翻訳と要約にはWizardLM 13B v1.2が、エンティティ抽出にはLlama3 70b instructが使用されました。多様化とファインチューニングの方法は、ArXiv の論文で紹介されています。
🚀 クイックスタート
このモデルを使用するには、以下のコードを参考にしてください。
from gliner import GLiNER
model = GLiNER.from_pretrained("EmergentMethods/gliner_medium_news-v2.1")
text = """
The Chihuahua State Public Security Secretariat (SSPE) arrested 35-year-old Salomón C. T. in Ciudad Juárez, found in possession of a stolen vehicle, a white GMC Yukon, which was reported stolen in the city's streets. The arrest was made by intelligence and police analysis personnel during an investigation in the border city. The arrest is related to a previous detention on February 6, which involved armed men in a private vehicle. The detainee and the vehicle were turned over to the Chihuahua State Attorney General's Office for further investigation into the case.
"""
labels = ["person", "location", "date", "event", "facility", "vehicle", "number", "organization"]
entities = model.predict_entities(text, labels)
for entity in entities:
print(entity["text"], "=>", entity["label"])
出力結果:
Chihuahua State Public Security Secretariat => organization
SSPE => organization
35-year-old => number
Salomón C. T. => person
Ciudad Juárez => location
GMC Yukon => vehicle
February 6 => date
Chihuahua State Attorney General's Office => organization
✨ 主な機能
このモデルは、一般的なエンティティ抽出を目的としています。ニュースデータを用いてファインチューニングされていますが、18のベンチマークデータセットで最大7.5%の精度向上を達成しています。これは、多様化されたデータセットが、より多くのエンティティタイプを認識し抽出するのに役立っていることを示しています。また、モデルが非常にコンパクトであるため、高スループットの本番環境での使用に適しています。
📚 ドキュメント
モデルの詳細
モデルの説明
このニュース用のファインチューニングに使用された合成データは、AskNews API から取得されました。国、言語、トピック、時間の多様性を強制しています。
国の分布:

エンティティタイプ:

トピック:

- 開発者: Emergent Methods
- 資金提供元: Emergent Methods
- 共有元: Emergent Methods
- モデルタイプ: microsoft/deberta
- 言語 (NLP): 英語 (en)(英語のテキストと、スペイン語 (es)、ポルトガル語 (pt)、ドイツ語 (de)、ロシア語 (ru)、フランス語 (fr)、アラビア語 (ar)、イタリア語 (it)、ウクライナ語 (uk)、ノルウェー語 (no)、スウェーデン語 (sv)、デンマーク語 (da) からの翻訳)
- ライセンス: Apache 2.0
- ファインチューニング元のモデル: GLiNER
モデルのソース [オプション]
- リポジトリ: 未設定
- 論文: 未設定
- デモ: 未設定
使用方法
直接使用
このモデルは、名前が示す通り、一般的なエンティティ抽出を目的としています。ニュースデータを用いてファインチューニングされていますが、18のベンチマークデータセットで最大7.5%の精度向上を達成しています。これは、多様化されたデータセットが、より多くのエンティティタイプを認識し抽出するのに役立っていることを示しています。現在、AskNews はこのファインチューニングされたモデルを、システム内のエンティティ抽出に使用しています。
バイアス、リスク、制限事項
データセットの目的はバイアスを減らし、多様性を向上させることですが、依然として西洋の言語と国にバイアスがあります。この制限は、翻訳と要約生成に使用されたLlama2の能力に起因しています。さらに、Llama2の学習データに含まれるバイアスは、このデータセットにも存在します。また、エンティティ抽出に使用されたLlama3に含まれるバイアスも、このデータセットに存在します。

モデルの使い始め方
以下のコードを使用して、モデルを使い始めることができます。
学習の詳細
学習データセットは AskNews-NER-v0 です。その他の学習詳細は、付属の論文 で確認できます。
環境への影響
引用
BibTeX
未設定
APA
未設定
モデルの作成者
Elin Törnquist, Emergent Methods elin at emergentmethods.ai
Robert Caulk, Emergent Methods rob at emergentmethods.ai
モデルの連絡先
Elin Törnquist, Emergent Methods elin at emergentmethods.ai
Robert Caulk, Emergent Methods rob at emergentmethods.ai
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。