multilingual-e5-large-xnliオープンソース多言語テキスト分類モデル - 15種の言語のゼロショット分類をサポート

ホーム

Multilingual E5 Large Xnli

mjwongによって開発

multilingual-e5-largeをXNLIデータセットでファインチューニングした多言語テキスト分類モデルで、15言語のゼロショット分類をサポート

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #多言語ゼロショット分類 #XNLIファインチューニング #クロスリンガル推論

ダウンロード数 21

リリース時間 : 7/5/2023

モデル概要

このモデルはmultilingual-e5-largeをXNLIデータセットでファインチューニングしたバージョンで、主に多言語自然言語推論とゼロショット分類タスクに使用されます。

モデル特徴

多言語サポート

15言語のゼロショット分類と自然言語推論タスクをサポート

ゼロショット分類

ファインチューニングなしで新しいカテゴリに分類可能

高性能

XNLI多言語テストセットで優れた性能を発揮し、一般的に高い精度を示す

モデル能力

多言語テキスト分類

ゼロショット分類

自然言語推論

使用事例

テキスト分類

ニュース分類

ニュース記事を事前定義されたカテゴリに分類

政治、経済などのカテゴリで良好な性能

コンテンツモデレーション

不適切なコンテンツを識別・分類

自然言語理解

意味関係判断

2つの文間の含意関係を判断

XNLIデータセットで優れた性能

🚀 multilingual-e5-large-xnli

このモデルは、XNLIデータセットでintfloat/multilingual-e5-largeをファインチューニングしたバージョンです。XNLIデータセットを用いたファインチューニングにより、多言語に対応したゼロショット分類タスクでの性能を向上させています。

✨ 主な機能

多言語に対応したゼロショット分類が可能です。
NLI（自然言語推論）タスクにも適用できます。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

`zero-shot-classification`パイプラインを使用する場合

このモデルはzero-shot-classificationパイプラインで以下のようにロードできます。

from transformers import pipeline
classifier = pipeline("zero-shot-classification",
                      model="mjwong/multilingual-e5-large-xnli")

次に、このパイプラインを使用して、指定したクラス名にシーケンスを分類できます。

sequence_to_classify = "Angela Merkel ist eine Politikerin in Deutschland und Vorsitzende der CDU"
candidate_labels = ["politics", "economy", "entertainment", "environment"]
classifier(sequence_to_classify, candidate_labels)

複数の候補ラベルが正しい場合、それぞれのクラスを独立して計算するにはmulti_class=Trueを渡します。

candidate_labels = ["politics", "economy", "entertainment", "environment"]
classifier(sequence_to_classify, candidate_labels, multi_label=True)

手動でPyTorchを使用する場合

このモデルはNLIタスクにも適用できます。

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# device = "cuda:0" or "cpu"
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

model_name = "mjwong/multilingual-e5-large-xnli"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

premise = "But I thought you'd sworn off coffee."
hypothesis = "I thought that you vowed to drink more coffee."

input = tokenizer(premise, hypothesis, truncation=True, return_tensors="pt")
output = model(input["input_ids"].to(device))
prediction = torch.softmax(output["logits"][0], -1).tolist()
label_names = ["entailment", "neutral", "contradiction"]
prediction = {name: round(float(pred) * 100, 2) for pred, name in zip(prediction, label_names)}
print(prediction)

📚 ドキュメント

評価結果

このモデルは、XNLIのテストセットを用いて15の言語で評価されました。評価指標は正解率です。

データセット	en	ar	bg	de	el	es	fr	hi	ru	sw	th	tr	ur	vi	zh
multilingual-e5-base-xnli	0.849	0.768	0.803	0.800	0.792	0.809	0.805	0.738	0.782	0.728	0.756	0.766	0.713	0.787	0.785
multilingual-e5-base-xnli-anli	0.811	0.711	0.751	0.759	0.746	0.778	0.765	0.685	0.728	0.662	0.705	0.716	0.683	0.736	0.740
multilingual-e5-large-xnli	0.867	0.791	0.832	0.825	0.823	0.837	0.824	0.778	0.806	0.749	0.787	0.793	0.738	0.813	0.808
multilingual-e5-large-xnli-anli	0.865	0.765	0.811	0.811	0.795	0.823	0.816	0.743	0.785	0.713	0.765	0.774	0.706	0.788	0.787
multilingual-e5-large-instruct-xnli	0.864	0.793	0.839	0.821	0.824	0.837	0.823	0.770	0.810	0.744	0.784	0.791	0.716	0.807	0.807
multilingual-e5-large-instruct-xnli-anli	0.861	0.780	0.816	0.808	0.806	0.825	0.816	0.758	0.799	0.727	0.775	0.780	0.721	0.787	0.795

また、MultiNLIの開発セットとANLIのテストセットを用いて評価されました。評価指標は正解率です。

データセット	mnli_dev_m	mnli_dev_mm	anli_test_r1	anli_test_r2	anli_test_r3
multilingual-e5-base-xnli	0.835	0.837	0.287	0.276	0.301
multilingual-e5-base-xnli-anli	0.814	0.811	0.588	0.437	0.439
multilingual-e5-large-xnli	0.865	0.865	0.312	0.316	0.300
multilingual-e5-large-xnli-anli	0.863	0.863	0.623	0.456	0.455
multilingual-e5-large-instruct-xnli	0.867	0.866	0.341	0.330	0.323
multilingual-e5-large-instruct-xnli-anli	0.862	0.862	0.615	0.459	0.462

学習ハイパーパラメータ

学習時に使用されたハイパーパラメータは以下の通りです。

学習率（learning_rate）: 2e-05
学習バッチサイズ（train_batch_size）: 16
評価バッチサイズ（eval_batch_size）: 16
乱数シード（seed）: 42
オプティマイザ（optimizer）: Adam（betas=(0.9,0.999)、epsilon=1e-08）
学習率スケジューラの種類（lr_scheduler_type）: linear
学習率スケジューラのウォームアップ比率（lr_scheduler_warmup_ratio）: 0.1
エポック数（num_epochs）: 1

フレームワークバージョン

Transformers 4.28.1
Pytorch 1.12.1+cu116
Datasets 2.11.0
Tokenizers 0.12.1

🔧 技術詳細

このモデルは、Text Embeddings by Weakly-Supervised Contrastive Pre-trainingの手法に基づいています。著者: Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder, Furu Wei, arXiv 2022