multilingual-e5-large-instruct-xnliオープンソースモデル - 15種類の言語のゼロショット分類タスクをサポート

ホーム

Multilingual E5 Large Instruct Xnli

mjwongによって開発

intfloat/multilingual-e5-large-instructをベースにXNLIデータセットでファインチューニングした多言語テキスト埋め込みモデルで、15言語のゼロショット分類タスクをサポート

テキスト分類

Transformers

複数言語対応オープンソースライセンス:MIT #多言語ゼロショット分類 #XNLIファインチューニング #クロスリンガル推論

ダウンロード数 82

リリース時間 : 6/9/2024

モデル概要

このモデルは弱教師付きコントラスト事前学習によりテキスト埋め込みを取得し、多言語自然言語推論やゼロショット分類タスクに適している

モデル特徴

多言語サポート

15言語のゼロショット分類と自然言語推論タスクをサポート

ゼロショット分類能力

特定ドメインの訓練なしで新規カテゴリに分類可能

高性能

XNLIテストセットで15言語全てにおいて優れた性能を発揮

モデル能力

多言語テキスト分類

自然言語推論

ゼロショット学習

使用事例

テキスト分類

ニュース分類

ニュースを政治、経済、エンターテインメントなどのカテゴリに自動分類

XNLIテストセットで80%以上の精度を達成

自然言語理解

意味関係判定

2つの文間の含意、中立、矛盾関係を判断

MultiNLI開発セットで86.7%の精度を達成

🚀 マルチリンガル-e5-large-instruct-xnli

このモデルは、XNLIデータセットで微調整された intfloat/multilingual-e5-large-instruct のバージョンです。XNLIデータセットを用いて、多言語に対応したゼロショット分類タスクに適した性能を持ちます。

✨ 主な機能

多言語に対応したゼロショット分類が可能です。
NLI（自然言語推論）タスクにも適用できます。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

ゼロショット分類パイプラインを使用する場合

from transformers import pipeline
classifier = pipeline("zero-shot-classification",
                      model="mjwong/multilingual-e5-large-instruct-xnli")

以下のように、指定したクラス名にシーケンスを分類できます。

sequence_to_classify = "Angela Merkel ist eine Politikerin in Deutschland und Vorsitzende der CDU"
candidate_labels = ["politics", "economy", "entertainment", "environment"]
classifier(sequence_to_classify, candidate_labels)

複数の候補ラベルが正しい場合、multi_class=True を渡して各クラスを独立して計算できます。

candidate_labels = ["politics", "economy", "entertainment", "environment"]
classifier(sequence_to_classify, candidate_labels, multi_label=True)

手動でPyTorchを使用する場合

このモデルは、NLIタスクにも適用できます。

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# device = "cuda:0" or "cpu"
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

model_name = "mjwong/multilingual-e5-large-instruct-xnli"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

premise = "But I thought you'd sworn off coffee."
hypothesis = "I thought that you vowed to drink more coffee."

input = tokenizer(premise, hypothesis, truncation=True, return_tensors="pt")
output = model(input["input_ids"].to(device))
prediction = torch.softmax(output["logits"][0], -1).tolist()
label_names = ["entailment", "neutral", "contradiction"]
prediction = {name: round(float(pred) * 100, 2) for pred, name in zip(prediction, label_names)}
print(prediction)

高度な使用法

高度なシナリオでは、ハイパーパラメータを調整したり、異なるデータセットで微調整することができます。

📚 ドキュメント

評価結果

このモデルは、XNLIのテストセットを用いて15の言語で評価されました。評価指標は正解率です。

データセット	en	ar	bg	de	el	es	fr	hi	ru	sw	th	tr	ur	vi	zh
multilingual-e5-base-xnli	0.849	0.768	0.803	0.800	0.792	0.809	0.805	0.738	0.782	0.728	0.756	0.766	0.713	0.787	0.785
multilingual-e5-base-xnli-anli	0.811	0.711	0.751	0.759	0.746	0.778	0.765	0.685	0.728	0.662	0.705	0.716	0.683	0.736	0.740
multilingual-e5-large-xnli	0.867	0.791	0.832	0.825	0.823	0.837	0.824	0.778	0.806	0.749	0.787	0.793	0.738	0.813	0.808
multilingual-e5-large-xnli-anli	0.865	0.765	0.811	0.811	0.795	0.823	0.816	0.743	0.785	0.713	0.765	0.774	0.706	0.788	0.787
multilingual-e5-large-instruct-xnli	0.864	0.793	0.839	0.821	0.824	0.837	0.823	0.770	0.810	0.744	0.784	0.791	0.716	0.807	0.807
multilingual-e5-large-instruct-xnli-anli	0.861	0.780	0.816	0.808	0.806	0.825	0.816	0.758	0.799	0.727	0.775	0.780	0.721	0.787	0.795

また、MultiNLIの開発セットとANLIのテストセットを用いても評価されました。評価指標は正解率です。

データセット	mnli_dev_m	mnli_dev_mm	anli_test_r1	anli_test_r2	anli_test_r3
multilingual-e5-base-xnli	0.835	0.837	0.287	0.276	0.301
multilingual-e5-base-xnli-anli	0.814	0.811	0.588	0.437	0.439
multilingual-e5-large-xnli	0.865	0.865	0.312	0.316	0.300
multilingual-e5-large-xnli-anli	0.863	0.863	0.623	0.456	0.455
multilingual-e5-large-instruct-xnli	0.867	0.866	0.341	0.330	0.323
multilingual-e5-large-instruct-xnli-anli	0.862	0.862	0.615	0.459	0.462

学習ハイパーパラメータ

学習時に使用されたハイパーパラメータは以下の通りです。

属性	詳情
学習率 (learning_rate)	2e-05
学習バッチサイズ (train_batch_size)	16
評価バッチサイズ (eval_batch_size)	16
シード (seed)	42
オプティマイザ (optimizer)	Adam (betas=(0.9, 0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	linear
学習率スケジューラのウォームアップ率 (lr_scheduler_warmup_ratio)	0.1
エポック数 (num_epochs)	1

フレームワークバージョン

Transformers 4.28.1
Pytorch 1.12.1+cu116
Datasets 2.19.2
Tokenizers 0.12.1

🔧 技術詳細

このモデルは、Text Embeddings by Weakly-Supervised Contrastive Pre-training の手法に基づいています。著者: Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder, Furu Wei 発行: arXiv 2022