multilingual-e5-large-instruct-xnli-anliオープンソースモデル - 15種類の言語のゼロショット分類タスクをサポート

ホーム

Multilingual E5 Large Instruct Xnli Anli

mjwongによって開発

intfloat/multilingual-e5-large-instructを基に、XNLIとANLIデータセットでファインチューニングされた多言語テキスト埋め込みモデルで、15言語のゼロショット分類タスクをサポート

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #多言語ゼロショット分類 #XNLI-ANLIファインチューニング #クロスランゲージ推論

ダウンロード数 70

リリース時間 : 6/11/2024

モデル概要

このモデルは弱教師ありコントラスティブ事前学習で得られたテキスト埋め込みモデルで、自然言語推論(NLI)タスクに特化して最適化されており、多言語ゼロショット分類をサポート

モデル特徴

多言語サポート

15言語のゼロショット分類タスクをサポート

高性能

XNLIとANLIデータセットで優れた性能を発揮し、特に英語や中国語などの主要言語で顕著

ゼロショット分類能力

特定タスクの訓練なしで新規カテゴリを分類可能

モデル能力

多言語テキスト分類

自然言語推論

ゼロショット学習

テキスト埋め込み

使用事例

コンテンツ分類

ニュース分類

ニュース記事を政治、経済、エンターテインメントなどのカテゴリに自動分類

XNLIテストセットで中国語の精度が0.795を達成

意味解析

テキスト含意判定

2つのテキスト間の論理的関係（含意、中立、矛盾）を判断

MultiNLI開発セットでマッチング精度0.862を達成

🚀 multilingual-e5-large-instruct-xnli-anli

このモデルは、XNLIとANLIデータセットでintfloat/multilingual-e5-large-instructをファインチューニングしたバージョンです。

🚀 クイックスタート

このモデルは、XNLIとANLIデータセットを用いてintfloat/multilingual-e5-large-instructをファインチューニングしたもので、ゼロショット分類やNLIタスクに利用できます。

✨ 主な機能

多言語対応のゼロショット分類が可能。
NLIタスクに適用できる。

📚 ドキュメント

モデルの説明

Text Embeddings by Weakly-Supervised Contrastive Pre-training Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder, Furu Wei, arXiv 2022

モデルの使い方

ゼロショット分類パイプラインを使用する場合

モデルはzero-shot-classificationパイプラインを使って次のようにロードできます。

from transformers import pipeline
classifier = pipeline("zero-shot-classification",
                      model="mjwong/multilingual-e5-large-instruct-xnli-anli")

このパイプラインを使って、指定したクラス名のいずれかにシーケンスを分類できます。

sequence_to_classify = "Angela Merkel ist eine Politikerin in Deutschland und Vorsitzende der CDU"
candidate_labels = ["politics", "economy", "entertainment", "environment"]
classifier(sequence_to_classify, candidate_labels)

複数の候補ラベルが正しい場合、multi_class=Trueを渡して各クラスを独立して計算できます。

candidate_labels = ["politics", "economy", "entertainment", "environment"]
classifier(sequence_to_classify, candidate_labels, multi_label=True)

PyTorchを手動で使用する場合

モデルは次のようにNLIタスクにも適用できます。

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# device = "cuda:0" or "cpu"
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

model_name = "mjwong/multilingual-e5-large-instruct-xnli-anli"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

premise = "But I thought you'd sworn off coffee."
hypothesis = "I thought that you vowed to drink more coffee."

input = tokenizer(premise, hypothesis, truncation=True, return_tensors="pt")
output = model(input["input_ids"].to(device))
prediction = torch.softmax(output["logits"][0], -1).tolist()
label_names = ["entailment", "neutral", "contradiction"]
prediction = {name: round(float(pred) * 100, 2) for pred, name in zip(prediction, label_names)}
print(prediction)

評価結果

このモデルは、15の言語（英語 (en)、アラビア語 (ar)、ブルガリア語 (bg)、ドイツ語 (de)、ギリシャ語 (el)、スペイン語 (es)、フランス語 (fr)、ヒンディー語 (hi)、ロシア語 (ru)、スワヒリ語 (sw)、タイ語 (th)、トルコ語 (tr)、ウルドゥー語 (ur)、ベトナム語 (vi)、中国語 (zh)）のXNLIテストセットを使用して評価されました。評価指標は正解率です。

データセット	en	ar	bg	de	el	es	fr	hi	ru	sw	th	tr	ur	vi	zh
multilingual-e5-base-xnli	0.849	0.768	0.803	0.800	0.792	0.809	0.805	0.738	0.782	0.728	0.756	0.766	0.713	0.787	0.785
multilingual-e5-base-xnli-anli	0.811	0.711	0.751	0.759	0.746	0.778	0.765	0.685	0.728	0.662	0.705	0.716	0.683	0.736	0.740
multilingual-e5-large-xnli	0.867	0.791	0.832	0.825	0.823	0.837	0.824	0.778	0.806	0.749	0.787	0.793	0.738	0.813	0.808
multilingual-e5-large-xnli-anli	0.865	0.765	0.811	0.811	0.795	0.823	0.816	0.743	0.785	0.713	0.765	0.774	0.706	0.788	0.787
multilingual-e5-large-instruct-xnli	0.864	0.793	0.839	0.821	0.824	0.837	0.823	0.770	0.810	0.744	0.784	0.791	0.716	0.807	0.807
multilingual-e5-large-instruct-xnli-anli	0.861	0.780	0.816	0.808	0.806	0.825	0.816	0.758	0.799	0.727	0.775	0.780	0.721	0.787	0.795

また、MultiNLIの開発セットとANLIのテストセットを使用して評価されました。評価指標は正解率です。

データセット	mnli_dev_m	mnli_dev_mm	anli_test_r1	anli_test_r2	anli_test_r3
multilingual-e5-base-xnli	0.835	0.837	0.287	0.276	0.301
multilingual-e5-base-xnli-anli	0.814	0.811	0.588	0.437	0.439
multilingual-e5-large-xnli	0.865	0.865	0.312	0.316	0.300
multilingual-e5-large-xnli-anli	0.863	0.863	0.623	0.456	0.455
multilingual-e5-large-instruct-xnli	0.867	0.866	0.341	0.330	0.323
multilingual-e5-large-instruct-xnli-anli	0.862	0.862	0.615	0.459	0.462