covid - twitter - bert - v2 - mnliオープンソースモデル - COVID - 19関連のツイッター内容を無料で分析

ホーム

Covid Twitter Bert V2 Mnli

digitalepidemiologylabによって開発

BERTベースのゼロショット分類器で、COVID-19関連のツイート内容分析に最適化されています

大規模言語モデル英語オープンソースライセンス:MIT #ゼロショット分類 #COVID-19ツイート分析 #MNLIファインチューニング

ダウンロード数 142

リリース時間 : 3/2/2022

モデル概要

このモデルは、特定のタスクに対してCT-BERTをファインチューニングできない場合に、分類タスクを質問形式に再構築することで、直接ゼロショット分類器として使用できます。

モデル特徴

ゼロショット分類能力

ラベルデータがなくても分類タスクを実行可能で、質問形式に再構築して直接推論します

COVID-19分野最適化

COVID-19関連のツイート内容に特化して最適化されています

MNLIファインチューニング

40万件のMNLIタスクデータでファインチューニングされており、強力な論理推論能力を備えています

モデル能力

テキスト分類

ゼロショット学習

自然言語推論

使用事例

公衆衛生

ワクチン関連ツイート分類

ツイッター上のワクチン関連コンテンツを自動識別

感染症情報モニタリング

ソーシャルメディア上の感染症関連情報のトレンド分析

ソーシャルメディア分析

トピック分類

COVID-19関連ツイートを自動分類

🚀 COVID-Twitter-BERT v2 MNLI

このモデルは、ラベル付きデータが不足しているため、特定のタスクでCT - BERTをファインチューニングできない場合に使用するゼロショット分類器を提供します。

🚀 クイックスタート

このモデルは、特定のタスクでCT - BERTをファインチューニングできない場合に役立つゼロショット分類器です。以下に使い方の基本的な流れを説明します。

✨ 主な機能

ラベル付きデータが不足している場合でも、ゼロショットでのテキスト分類が可能です。
MNLIモデルを利用した巧妙な分類手法を採用しています。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import pipeline
classifier = pipeline("zero-shot-classification", model="digitalepidemiologylab/covid-twitter-bert-v2-mnli")

高度な使用法

sequence_to_classify = 'To stop the pandemic it is important that everyone turns up for their shots.'
candidate_labels = ['health', 'sport', 'vaccine', 'guns']
hypothesis_template = 'This example is {}.'
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template, multi_class=True)

📚 ドキュメント

モデルの説明

このモデルは、特定のタスクでCT - BERTをファインチューニングできない場合に使用するゼロショット分類器を提供します。この手法はYin et al.に基づいており、事前学習されたMNLIモデルをゼロショットシーケンス分類器として使用する非常に賢い方法を記述しています。このモデルはすでに40万の一般的な論理タスクでファインチューニングされています。分類タスクを質問として再定式化することで、ゼロショット分類器として使用できます。

例えば、COVID関連のツイートをワクチン関連と非ワクチン関連に分類したい場合、通常は数百の事前アノテーション付きのツイートを収集し、2つのクラスに分けてモデルをファインチューニングします。しかし、ゼロショットMNLI分類器を使用すると、質問を「このテキストはワクチンに関するものです」と再定式化し、トレーニングなしで直接推論に使用できます。

モデルに関する詳細な情報は、GitHubページを参照してください。

使用上の注意

質問の定式化方法によって、わずかに異なる結果が得られる場合があります。トレーニングセットを収集してファインチューニングすることで、より高い精度が得られる可能性があります。

🔧 技術詳細

このモデルは、40万件の大規模なMNLIタスクでファインチューニングされています。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

参考文献

@article{muller2020covid,
  title={COVID-Twitter-BERT: A Natural Language Processing Model to Analyse COVID-19 Content on Twitter},
  author={M{\"u}ller, Martin and Salath{\'e}, Marcel and Kummervold, Per E},
  journal={arXiv preprint arXiv:2005.07503},
  year={2020}
}

または

Martin Müller, Marcel Salathé, and Per E. Kummervold.
COVID-Twitter-BERT: A Natural Language Processing Model to Analyse COVID-19 Content on Twitter.
arXiv preprint arXiv:2005.07503 (2020).