🚀 SCIroShot
SCIroShotは、英語のゼロショットテキスト分類に特化したモデルです。科学分野のデータを用いて微調整され、科学分野でSOTA性能を達成し、他の分野でも高い競争力を持ちます。
🚀 クイックスタート
このモデルは英語のゼロショットテキスト分類に使用されます。以下に使用例を示します。
from transformers import pipeline
zstc = pipeline("zero-shot-classification", model="BSC-LT/sciroshot")
sentence = "Leo Messi is the best player ever."
candidate_labels = ["politics", "science", "sports", "environment"]
template = "This example is {}"
output = zstc(sentence, candidate_labels, hypothesis_template=template, multi_label=False)
print(output)
print(f'Predicted class: {output["labels"][0]}')
✨ 主な機能
- ゼロショットテキスト分類:事前にラベル付けされたデータがなくても、テキストを分類できます。
- 科学分野での高い性能:科学分野のデータを用いて微調整され、科学分野でSOTA性能を達成します。
- 他の分野での競争力:他の分野でも高い性能を発揮します。
📦 インストール
このモデルはtransformers
ライブラリを通じて使用できます。インストールには以下のコマンドを実行します。
pip install transformers
💻 使用例
基本的な使用法
from transformers import pipeline
zstc = pipeline("zero-shot-classification", model="BSC-LT/sciroshot")
sentence = "Leo Messi is the best player ever."
candidate_labels = ["politics", "science", "sports", "environment"]
template = "This example is {}"
output = zstc(sentence, candidate_labels, hypothesis_template=template, multi_label=False)
print(output)
print(f'Predicted class: {output["labels"][0]}')
📚 ドキュメント
概要
プロパティ |
詳細 |
モデルタイプ |
Language Model |
アーキテクチャ |
RoBERTa-large |
言語 |
英語 |
ライセンス |
Apache 2.0 |
タスク |
ゼロショットテキスト分類 |
トレーニングデータ |
Microsoft Academic Graph |
追加リソース |
論文、GitHub |
モデルの説明
SCIroShotは、エンテイルメントベースのゼロショットテキスト分類モデルです。Microsoft Academic Graph (MAG) からの科学記事で構成される自作データセットを使用して微調整されています。得られたモデルは、科学分野でSOTA性能を達成し、他の分野でも非常に競争力のある結果を得ています。
想定される使用法
このモデルは、英語のゼロショットテキスト分類に使用することを想定しています。
制限事項とバイアス
モデルに埋め込まれたバイアスと毒性を推定するための対策は取られていません。微調整データ(科学的性質のもの)は無害に見えるかもしれませんが、バニラモデルを事前学習するために使用されるコーパスは、RoBERTa-largeモデルカードに記載されているように、インターネットからの多くの未フィルタリングのコンテンツを含んでいる可能性が非常に高いことに注意してください。
トレーニング
トレーニングデータ
データは、Microsoft Academic Graph (MAG) の科学分野の注釈付きデータを基に構築されています。このデータベースは、科学出版物と特許の両方からの数十億件のレコードを含む異種グラフで構成されており、著者、機関、ジャーナル、会議、およびそれらの引用関係などのメタデータ情報も含まれています。文書は、科学的概念の6レベルの階層構造で整理されており、最上位の2レベルは高精度を保証するために手動で管理されています。
トレーニングコーパスを作成するために、2000年から2021年の間に公開された科学記事のランダムサンプルが、英語のタイトルと要約とともにMAGから取得されました。これにより、1レベルのMAG分類法(「Computational biology」や「Transport Engineering」などの292の可能なクラス)から取得された対応する研究分野を持つ200万を超える文書が得られます。
微調整データセットは、テキスト分類データをエンテイルメント形式に変換することで弱教師付き方式で構築されました。科学テキストと1レベルのMAG分類法の一致する概念との関係を使用して、エンテイルメントラベルに対応する前提 - 仮説ペアを生成することができます。逆に、テキストとその科学的概念との実際の関係を削除し、一致しない概念との仮想関係を作成することで、中立ラベルのペアを生成します。
トレーニング手順
前のセクションで説明した新しく作成された科学データセットは、エンテイルメントタスクで3億5500万パラメータのRoBERTaモデルを微調整するために使用されました。これを行うために、モデルは、入力されたすべてのテキストとすべての候補ラベルの間のエンテイルメントスコアを計算する必要があります。最終的な予測は、単一ラベル分類の設定では最もスコアの高いクラスになり、マルチラベルシナリオでは特定のしきい値を超えるN個のクラスになります。
トレーニングデータから52のラベルのサブセットが取り分けられ、完全に未知のクラスの開発セットとして使用されました。新しい点として、検証はエンテイルメントタスク(代理として使用される)ではなく、ターゲットのテキスト分類タスクで直接行われました。これにより、早期終了によって適切な時点でトレーニングを停止することができ、モデルがトレーニングタスクに「過学習」するのを防ぎます。この方法は、実験期間中に経験的に発見された効果に対抗するための方法で、ある時点以降、モデルがトレーニングタスク(RTE)では改善し続けるにもかかわらず、ターゲットタスク(ZSTC)で悪化することが観察されました。トレーニング時間を短縮するだけで、性能が向上しました。
方法論とRTE/ZSTC相関の分析の詳細については、論文を参照してください。
評価
評価データ
モデルの性能は、科学分野(トレーニングデータに近い)と一般分野(汎化性を評価するため)の両方の分野ラベル付きテキストデータセットのコレクションで評価されました。
以下の表は、各データセットの例の数とラベルの概要を提供します。
データセット |
ラベル |
サイズ |
arXiv |
11 |
3,838 |
SciDocs-MeSH |
11 |
16,433 |
SciDocs-MAG |
19 |
17,501 |
Konstanz |
24 |
10,000 |
Elsevier |
26 |
14,738 |
PubMed |
109 |
5,000 |
Topic Categorization (Yahoo! Answers) |
10 |
60,000 |
Emotion Detection (UnifyEmotion) |
10 |
15,689 |
Situation Frame Detection (Situation Typing) |
12 |
3,311 |
各データセットの詳細については、論文を参照してください。
評価結果
これらは論文で報告された公式の結果です。
科学分野のベンチマーク
モデル |
arXiv |
SciDocs-MesH |
SciDocs-MAG |
Konstanz |
Elsevier |
PubMed |
fb/bart-large-mnli |
33.28 |
66.18🔥 |
51.77 |
54.62 |
28.41 |
31.59🔥 |
SCIroShot |
42.22🔥 |
59.34 |
69.86🔥 |
66.07🔥 |
54.42🔥 |
27.93 |
一般分野のベンチマーク
上記のすべての数値は、(Yin et al., 2019) の表記に従って、トピック分類データセットを除いて、ラベル単位の加重F1を表しています。トピック分類データセットは正確度で評価されています。
🔧 技術詳細
- モデルアーキテクチャ:RoBERTa-large
- トレーニングデータ:Microsoft Academic Graph
- 微調整方法:弱教師付き方式でテキスト分類データをエンテイルメント形式に変換
📄 ライセンス
この作品は Apache License, Version 2.0 の下で配布されています。
追加情報
著者
- SIRIS Lab, Research Division of SIRIS Academic.
- Language Technologies Unit, Barcelona Supercomputing Center.
連絡先
詳細情報については、langtech@bsc.es または info@sirisacademic.com までメールを送信してください。
資金提供
この研究は、EUのH2020研究・イノベーションプログラムの下で2つのプロジェクトによって部分的に資金提供されています。
- INODE (grant agreement No 863410).
- IntelComp (grant agreement No 101004870).
引用
@inproceedings{pamies2023weakly,
title={A weakly supervised textual entailment approach to zero-shot text classification},
author={P{\`a}mies, Marc and Llop, Joan and Multari, Francesco and Duran-Silva, Nicolau and Parra-Rojas, C{\'e}sar and Gonz{\'a}lez-Agirre, Aitor and Massucci, Francesco Alessandro and Villegas, Marta},
booktitle={Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics},
pages={286--296},
year={2023}
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、Apache v2.0ライセンスの下で第三者に提供されています。
モデルにはバイアスやその他の望ましくない歪みが含まれている可能性があることに留意してください。第三者がこのモデル(またはそれに基づくシステム)を使用してシステムやサービスを他の者に展開または提供する場合、またはモデル自体のユーザーになる場合、その使用によって生じるリスクを軽減し、いかなる場合も、人工知能の使用に関する規制を含む適用される規制に準拠することは、それらの者の責任です。
いかなる場合も、モデルの所有者および作成者は、第三者による使用から生じるいかなる結果に対しても責任を負いません。