🚀 DeBERTa-v3-base-mnli-fever-anli
このモデルは、前提と仮説のゼロショット分類を行い、それらの関係を含意、中立、矛盾として比較するためのモデルです。MultiNLIデータセットで訓練され、推論エンドポイントでの利用が容易になるように設計されています。
🚀 クイックスタート
このモデルは、前提と仮説の関係をゼロショット分類で判断するために使用できます。以下に使用例を示します。
✨ 主な機能
- MultiNLIデータセットで訓練されたモデルです。
- 前提と仮説のゼロショット分類を行い、それらの関係を含意、中立、矛盾として判断します。
- 推論エンドポイントでの利用が容易になるように設計されています。
📦 インストール
本READMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "MoritzLaurer/DeBERTa-v3-base-mnli"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
premise = "I first thought that I liked the movie, but upon second thought it was actually disappointing."
hypothesis = "The movie was good."
input = tokenizer(premise, hypothesis, truncation=True, return_tensors="pt")
output = model(input["input_ids"].to(device))
prediction = torch.softmax(output["logits"][0], -1).tolist()
label_names = ["entailment", "neutral", "contradiction"]
prediction = {name: round(float(pred) * 100, 1) for pred, name in zip(prediction, label_names)}
print(prediction)
高度な使用法
curl YOUR INFERENCE ENDPOINT URL HERE \ -X POST \ -d '{"inputs": {"premise": "A man is walking his dog in the park.", "hypothesis": "A person is outside with an animal."}}' \ -H "Authorization: Bearer hf_YOUR_TOKEN_HERE" \ -H "Content-Type: application/json
📚 ドキュメント
モデルの説明
このモデルは、392,702のNLI仮説 - 前提のペアからなるMultiNLIデータセットで訓練されています。ベースモデルはMicrosoftのDeBERTa - v3 - baseです。DeBERTaのv3バリアントは、異なる事前学習目的を含むことで、以前のバージョンのモデルを大幅に上回っています。詳細は、元のDeBERTa論文の付録11を参照してください。より強力なモデルについては、DeBERTa - v3 - base - mnli - fever - anliをチェックしてください。このモデルは、さらに多くのデータで訓練されています。
想定される用途と制限
モデルの使用方法
上記のコード例を参照してください。
訓練データ
このモデルは、392,702のNLI仮説 - 前提のペアからなるMultiNLIデータセットで訓練されています。
訓練手順
DeBERTa - v3 - base - mnliは、以下のハイパーパラメータを使用してHugging Faceのトレーナーで訓練されました。
training_args = TrainingArguments(
num_train_epochs=5, # total number of training epochs
learning_rate=2e-05,
per_device_train_batch_size=32, # batch size per device during training
per_device_eval_batch_size=32, # batch size for evaluation
warmup_ratio=0.1, # number of warmup steps for learning rate scheduler
weight_decay=0.06, # strength of weight decay
fp16=True # mixed precision training
)
評価結果
このモデルは、一致するテストセットを使用して評価され、0.90の精度を達成しています。
制限とバイアス
潜在的なバイアスについては、元のDeBERTa論文とさまざまなNLIデータセットに関する文献を参照してください。
BibTeXエントリと引用情報
このモデルを引用する場合は、元のDeBERTa論文、それぞれのNLIデータセットを引用し、Hugging Faceハブでのこのモデルへのリンクを含めてください。
協力のアイデアや質問は?
質問や協力のアイデアがある場合は、m{dot}laurer{at}vu{dot}nlまたはLinkedInで連絡してください。
デバッグと問題点
DeBERTa - v3は最近リリースされたため、古いバージョンのHF Transformersではモデルを実行する際に問題が発生する可能性があります(例えば、トークナイザーに関する問題が発生することがあります)。Transformers==4.13を使用すると、いくつかの問題を解決できる可能性があります。
モデルの再利用
36のデータセットでの評価では、MoritzLaurer/DeBERTa - v3 - base - mnliをベースモデルとして使用した場合、平均スコアは80.01で、microsoft/deberta - v3 - baseの79.04と比較して高い結果が得られています。
2023年9月1日現在、このモデルはmicrosoft/deberta - v3 - baseアーキテクチャのテストされたすべてのモデルの中で1位にランクされています。
結果:
20_newsgroup |
ag_news |
amazon_reviews_multi |
anli |
boolq |
cb |
cola |
copa |
dbpedia |
esnli |
financial_phrasebank |
imdb |
isear |
mnli |
mrpc |
multirc |
poem_sentiment |
qnli |
qqp |
rotten_tomatoes |
rte |
sst2 |
sst_5bins |
stsb |
trec_coarse |
trec_fine |
tweet_ev_emoji |
tweet_ev_emotion |
tweet_ev_hate |
tweet_ev_irony |
tweet_ev_offensive |
tweet_ev_sentiment |
wic |
wnli |
wsc |
yahoo_answers |
86.0196 |
90.6333 |
66.96 |
60.0938 |
83.792 |
83.9286 |
86.5772 |
72 |
79.2 |
91.419 |
85.1 |
94.232 |
71.5124 |
89.4426 |
90.4412 |
63.7583 |
86.5385 |
93.8129 |
91.9144 |
89.8687 |
85.9206 |
95.4128 |
57.3756 |
91.377 |
97.4 |
91 |
47.302 |
83.6031 |
57.6431 |
77.1684 |
83.3721 |
70.2947 |
71.7868 |
67.6056 |
74.0385 |
71.7 |
詳細については、モデルの再利用を参照してください。