multilingual-e5-large-xnli-anliオープンソースモデル - 無料で多言語のゼロショット分類タスクをサポート

ホーム

Multilingual E5 Large Xnli Anli

mjwongによって開発

multilingual-e5-largeモデルをXNLIとANLIデータセットでファインチューニングしたバージョンで、多言語ゼロショット分類タスクをサポート

テキスト分類

Transformers

複数言語対応オープンソースライセンス:MIT #多言語ゼロショット分類 #XNLI-ANLIファインチューニング #言語間推論

ダウンロード数 20

リリース時間 : 7/22/2023

モデル概要

このモデルは弱教師付きコントラスト事前学習で得られたテキスト埋め込みモデルで、多言語自然言語推論とゼロショット分類タスクに適しています。

モデル特徴

多言語サポート

15言語のゼロショット分類と自然言語推論タスクをサポート

高性能

XNLIとANLIデータセットで優れた精度を発揮

ゼロショット分類能力

ファインチューニングなしで新規カテゴリを分類可能

モデル能力

多言語テキスト分類

自然言語推論

ゼロショット学習

使用事例

テキスト分類

ニュース分類

ニュース記事を政治、経済などの事前定義カテゴリに分類

15言語で良好な性能

自然言語理解

テキスト含意判定

2つの文間の論理関係（含意、中立、矛盾）を判断

XNLIとANLIデータセットで良好な評価結果

🚀 マルチリンガル-e5-large-xnli-anli

このモデルは、XNLIとANLIデータセットで微調整されたintfloat/multilingual-e5-largeのバージョンです。XNLIとANLIデータセットを使用して、多言語の自然言語推論タスクに適用できます。

🚀 クイックスタート

このモデルは、XNLIとANLIデータセットで微調整されたintfloat/multilingual-e5-largeのバージョンです。多言語の自然言語推論タスクに使用できます。

✨ 主な機能

多言語対応: 英語、アラビア語、ブルガリア語など15言語に対応しています。
ゼロショット分類: zero-shot-classificationパイプラインを使用して、任意のクラス名にシーケンスを分類できます。
NLIタスク対応: PyTorchを使用して、自然言語推論タスクに適用できます。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

ゼロショット分類パイプラインを使用する場合

モデルはzero-shot-classificationパイプラインで以下のように読み込むことができます。

from transformers import pipeline
classifier = pipeline("zero-shot-classification",
                      model="mjwong/multilingual-e5-large-xnli-anli")

このパイプラインを使用して、指定した任意のクラス名にシーケンスを分類できます。

sequence_to_classify = "Angela Merkel ist eine Politikerin in Deutschland und Vorsitzende der CDU"
candidate_labels = ["politics", "economy", "entertainment", "environment"]
classifier(sequence_to_classify, candidate_labels)

複数の候補ラベルが正しい場合、multi_class=Trueを渡して各クラスを独立して計算できます。

candidate_labels = ["politics", "economy", "entertainment", "environment"]
classifier(sequence_to_classify, candidate_labels, multi_label=True)

手動でPyTorchを使用する場合

モデルは、以下のようにNLIタスクにも適用できます。

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# device = "cuda:0" or "cpu"
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

model_name = "mjwong/multilingual-e5-large-xnli-anli"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

premise = "But I thought you'd sworn off coffee."
hypothesis = "I thought that you vowed to drink more coffee."

input = tokenizer(premise, hypothesis, truncation=True, return_tensors="pt")
output = model(input["input_ids"].to(device))
prediction = torch.softmax(output["logits"][0], -1).tolist()
label_names = ["entailment", "neutral", "contradiction"]
prediction = {name: round(float(pred) * 100, 2) for pred, name in zip(prediction, label_names)}
print(prediction)

📚 ドキュメント

評価結果

このモデルは、XNLIテストセットを使用して15言語で評価されました。評価指標は正解率です。

データセット	英語 (en)	アラビア語 (ar)	ブルガリア語 (bg)	ドイツ語 (de)	ギリシャ語 (el)	スペイン語 (es)	フランス語 (fr)	ヒンディー語 (hi)	ロシア語 (ru)	スワヒリ語 (sw)	タイ語 (th)	トルコ語 (tr)	ウルドゥー語 (ur)	ベトナム語 (vi)	中国語 (zh)
multilingual-e5-base-xnli	0.849	0.768	0.803	0.800	0.792	0.809	0.805	0.738	0.782	0.728	0.756	0.766	0.713	0.787	0.785
multilingual-e5-base-xnli-anli	0.811	0.711	0.751	0.759	0.746	0.778	0.765	0.685	0.728	0.662	0.705	0.716	0.683	0.736	0.740
multilingual-e5-large-xnli	0.867	0.791	0.832	0.825	0.823	0.837	0.824	0.778	0.806	0.749	0.787	0.793	0.738	0.813	0.808
multilingual-e5-large-xnli-anli	0.865	0.765	0.811	0.811	0.795	0.823	0.816	0.743	0.785	0.713	0.765	0.774	0.706	0.788	0.787
multilingual-e5-large-instruct-xnli	0.864	0.793	0.839	0.821	0.824	0.837	0.823	0.770	0.810	0.744	0.784	0.791	0.716	0.807	0.807
multilingual-e5-large-instruct-xnli-anli	0.861	0.780	0.816	0.808	0.806	0.825	0.816	0.758	0.799	0.727	0.775	0.780	0.721	0.787	0.795

また、このモデルは、MultiNLIの開発セットとANLIのテストセットを使用して評価されました。評価指標は正解率です。

データセット	mnli_dev_m	mnli_dev_mm	anli_test_r1	anli_test_r2	anli_test_r3
multilingual-e5-base-xnli	0.835	0.837	0.287	0.276	0.301
multilingual-e5-base-xnli-anli	0.814	0.811	0.588	0.437	0.439
multilingual-e5-large-xnli	0.865	0.865	0.312	0.316	0.300
multilingual-e5-large-xnli-anli	0.863	0.863	0.623	0.456	0.455
multilingual-e5-large-instruct-xnli	0.867	0.866	0.341	0.330	0.323
multilingual-e5-large-instruct-xnli-anli	0.862	0.862	0.615	0.459	0.462

学習ハイパーパラメータ

学習時には以下のハイパーパラメータが使用されました。

学習率: 2e-05
学習バッチサイズ: 16
評価バッチサイズ: 16
シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップ率: 0.1

フレームワークバージョン

Transformers 4.28.1
Pytorch 1.12.1+cu116
Datasets 2.11.0
Tokenizers 0.12.1

🔧 技術詳細

このモデルは、Text Embeddings by Weakly-Supervised Contrastive Pre-trainingの手法に基づいています。著者: Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder, Furu Wei 出版: arXiv 2022