🚀 DeBERTa-v3-base-mnli-fever-anli
このモデルは、テキスト分類やゼロショット分類に特化しており、MultiNLIデータセットを用いて訓練されました。高精度な分類性能を持ち、関連タスクにおいて高い有用性を発揮します。
🚀 クイックスタート
このセクションでは、モデルの基本的な使用方法を説明します。以下のコードを参考に、モデルを使ってゼロショット分類を行うことができます。
✨ 主な機能
- テキスト分類タスクに適用可能です。
- ゼロショット分類が可能で、事前に大量のデータを用意する必要がありません。
- MultiNLIデータセットで訓練されており、高精度な分類性能を備えています。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "MoritzLaurer/DeBERTa-v3-base-mnli"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
premise = "I first thought that I liked the movie, but upon second thought it was actually disappointing."
hypothesis = "The movie was good."
input = tokenizer(premise, hypothesis, truncation=True, return_tensors="pt")
output = model(input["input_ids"].to(device))
prediction = torch.softmax(output["logits"][0], -1).tolist()
label_names = ["entailment", "neutral", "contradiction"]
prediction = {name: round(float(pred) * 100, 1) for pred, name in zip(prediction, label_names)}
print(prediction)
📚 ドキュメント
モデルの説明
このモデルは、MultiNLIデータセットで訓練されています。このデータセットは、392,702のNLI仮説 - 前提ペアから構成されています。ベースモデルは、MicrosoftのDeBERTa-v3-baseです。DeBERTaのv3バリアントは、異なる事前学習目的を含むことで、以前のバージョンのモデルを大幅に上回っています。詳細は、元のDeBERTa論文の付録11を参照してください。より強力なモデルについては、DeBERTa-v3-base-mnli-fever-anliをチェックしてください。このモデルは、さらに多くのデータで訓練されています。
訓練データ
このモデルは、MultiNLIデータセットで訓練されています。このデータセットは、392,702のNLI仮説 - 前提ペアから構成されています。
訓練手順
DeBERTa-v3-base-mnliは、Hugging Faceのトレーナーを使用して、以下のハイパーパラメータで訓練されました。
training_args = TrainingArguments(
num_train_epochs=5, # total number of training epochs
learning_rate=2e-05,
per_device_train_batch_size=32, # batch size per device during training
per_device_eval_batch_size=32, # batch size for evaluation
warmup_ratio=0.1, # number of warmup steps for learning rate scheduler
weight_decay=0.06, # strength of weight decay
fp16=True # mixed precision training
)
評価結果
このモデルは、マッチしたテストセットを使用して評価され、0.90の精度を達成しています。
🔧 技術詳細
DeBERTa-v3-base-mnliは、MultiNLIデータセットを用いて訓練されたゼロショット分類モデルです。ベースモデルのDeBERTa-v3は、新しい事前学習目的を導入することで、性能を向上させています。訓練にはHugging Faceのトレーナーを使用し、特定のハイパーパラメータを設定しています。評価では、マッチしたテストセットを使用し、0.90の精度を達成しています。
📄 ライセンス
このモデルを引用する場合は、元のDeBERTa論文、それぞれのNLIデータセットを引用し、Hugging Faceハブでのこのモデルへのリンクを含めてください。
重要提示
DeBERTa-v3は最近リリースされたため、古いバージョンのHF Transformersでは、モデルを実行する際に問題が発生する可能性があります(例えば、トークナイザに関する問題)。Transformers==4.13を使用すると、いくつかの問題を解決できる可能性があります。
使用建议
もし質問や協力に関するアイデアがある場合は、m{dot}laurer{at}vu{dot}nlまで連絡するか、LinkedInから連絡してください。
モデルの再利用
36のデータセットでの評価では、MoritzLaurer/DeBERTa-v3-base-mnliをベースモデルとして使用し、平均スコア80.01を達成しています。これに対し、microsoft/deberta-v3-baseの平均スコアは79.04です。
このモデルは、2023年9月1日現在、microsoft/deberta-v3-baseアーキテクチャのすべてのテスト済みモデルの中で1位にランクされています。
結果:
20_newsgroup |
ag_news |
amazon_reviews_multi |
anli |
boolq |
cb |
cola |
copa |
dbpedia |
esnli |
financial_phrasebank |
imdb |
isear |
mnli |
mrpc |
multirc |
poem_sentiment |
qnli |
qqp |
rotten_tomatoes |
rte |
sst2 |
sst_5bins |
stsb |
trec_coarse |
trec_fine |
tweet_ev_emoji |
tweet_ev_emotion |
tweet_ev_hate |
tweet_ev_irony |
tweet_ev_offensive |
tweet_ev_sentiment |
wic |
wnli |
wsc |
yahoo_answers |
86.0196 |
90.6333 |
66.96 |
60.0938 |
83.792 |
83.9286 |
86.5772 |
72 |
79.2 |
91.419 |
85.1 |
94.232 |
71.5124 |
89.4426 |
90.4412 |
63.7583 |
86.5385 |
93.8129 |
91.9144 |
89.8687 |
85.9206 |
95.4128 |
57.3756 |
91.377 |
97.4 |
91 |
47.302 |
83.6031 |
57.6431 |
77.1684 |
83.3721 |
70.2947 |
71.7868 |
67.6056 |
74.0385 |
71.7 |
詳細については、モデルの再利用を参照してください。