gte - 多言語 - ベース - xnliオープンソースモデル - 多言語自然言語推論タスクをサポート！

ホーム

Gte Multilingual Base Xnli

mjwongによって開発

このモデルはAlibaba-NLP/gte-multilingual-baseをXNLIデータセットでファインチューニングしたバージョンで、多言語自然言語推論タスクをサポートします。

テキスト分類

Safetensors

複数言語対応オープンソースライセンス:Apache-2.0 #多言語NLI #ゼロショット分類 #言語間推論

ダウンロード数 58

リリース時間 : 2/10/2025

モデル概要

gte-multilingual-base-xnliは多言語テキスト分類モデルで、ゼロショット分類と自然言語推論タスクに特化しており、15言語をサポートしています。

モデル特徴

多言語サポート

15言語のゼロショット分類と自然言語推論タスクをサポート

高精度

XNLIテストセットで優れた性能を発揮し、英語の精度は85.4%、その他の言語も高い水準を維持

ゼロショット分類能力

特定のトレーニングなしで新規カテゴリを分類可能

モデル能力

ゼロショット分類

自然言語推論

多言語テキスト処理

使用事例

テキスト分類

多言語コンテンツ分類

多言語テキストの自動分類（ニュース分類、感情分析など）

15言語すべてで良好な性能

自然言語理解

テキスト含意判定

2つのテキスト間の論理的関係（含意、中立、矛盾）を判断

XNLIデータセットで優れた評価結果

🚀 gte-multilingual-base-xnli

このモデルは、XNLIデータセットでAlibaba-NLP/gte-multilingual-baseをファインチューニングしたバージョンです。XNLIデータセットを用いて、多言語に対応したゼロショット分類タスクに特化した性能を持ちます。

✨ 主な機能

モデルの説明

mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval。 Xin Zhang, Yanzhao Zhang, Dingkun Long, Wen Xie, Ziqi Dai, Jialong Tang, Huan Lin, Baosong Yang, Pengjun Xie, Fei Huang, Meishan Zhang, Wenjie Li, Min Zhang, arXiv 2024

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、transformers などのライブラリをインストールできます。

pip install transformers datasets torch tokenizers

💻 使用例

基本的な使用法

ゼロショット分類パイプラインを使用する場合

このモデルは、zero-shot-classification パイプラインを使って以下のようにロードできます。

from transformers import AutoTokenizer, pipeline
model = "mjwong/gte-multilingual-base-xnli"
tokenizer = AutoTokenizer.from_pretrained(model)
classifier = pipeline("zero-shot-classification",
                      model=model,
                      tokenizer=tokenizer,
                      trust_remote_code=True
                      )

次に、このパイプラインを使って、指定したクラス名にシーケンスを分類できます。

sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels)

複数の候補ラベルが正しい場合、multi_class=True を渡して各クラスを独立して計算できます。

candidate_labels = ['travel', 'cooking', 'dancing', 'exploration']
classifier(sequence_to_classify, candidate_labels, multi_class=True)

手動でPyTorchを使用する場合

このモデルは、NLIタスクにも適用できます。

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# device = "cuda:0" or "cpu"
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

model_name = "mjwong/gte-multilingual-base-xnli"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name, trust_remote_code=True)

premise = "But I thought you'd sworn off coffee."
hypothesis = "I thought that you vowed to drink more coffee."

input = tokenizer(premise, hypothesis, truncation=True, return_tensors="pt")
output = model(input["input_ids"].to(device))
prediction = torch.softmax(output["logits"][0], -1).tolist()
label_names = ["entailment", "neutral", "contradiction"]
prediction = {name: round(float(pred) * 100, 2) for pred, name in zip(prediction, label_names)}
print(prediction)

高度な使用法

このモデルは、XNLIデータセットを用いて15の言語で評価されています。また、MultiNLIの開発セットとANLIのテストセットを用いても評価されています。評価指標は精度です。

XNLIテストセットによる評価結果

Datasets	en	ar	bg	de	el	es	fr	hi	ru	sw	th	tr	ur	vi	zh
gte-multilingual-base-xnli	0.854	0.767	0.811	0.798	0.801	0.820	0.818	0.753	0.792	0.719	0.766	0.769	0.701	0.799	0.798
gte-multilingual-base-xnli-anli	0.843	0.738	0.793	0.773	0.776	0.801	0.788	0.727	0.775	0.689	0.746	0.747	0.687	0.773	0.779