gte-multilingual-base-xnli-anliオープンソースモデル - 無料で多言語自然言語推論をサポート

ホーム

Gte Multilingual Base Xnli Anli

mjwongによって開発

このモデルはAlibaba-NLP/gte-multilingual-baseをXNLIとANLIデータセットでファインチューニングしたバージョンで、多言語自然言語推論タスクをサポートします。

テキスト分類

Safetensors

複数言語対応オープンソースライセンス:Apache-2.0 #多言語NLI #ゼロショット分類 #クロスランゲージ推論

ダウンロード数 21

リリース時間 : 2/10/2025

モデル概要

ゼロショット分類と自然言語推論(NLI)タスク専用の多言語テキスト分類モデルで、15言語をサポートします。

モデル特徴

多言語サポート

15言語のテキスト分類と自然言語推論タスクをサポート

ゼロショット分類能力

ファインチューニングなしで新規カテゴリを分類可能

XNLIとANLIデータセットでファインチューニング

XNLIとANLIデータセットで特別にファインチューニングされ、自然言語推論性能を最適化

モデル能力

多言語テキスト分類

自然言語推論

ゼロショット学習

使用事例

テキスト分類

多言語コンテンツ分類

多言語テキストコンテンツの分類（ニュース分類、感情分析など）

自然言語理解

テキスト含意判定

2つのテキスト間の論理的関係を判定（含意、中立、矛盾）

XNLIテストセットで約70-85%の精度

🚀 gte-multilingual-base-xnli-anli

このモデルは、XNLIとANLIデータセットでAlibaba-NLP/gte-multilingual-baseをファインチューニングしたバージョンです。

🚀 クイックスタート

モデルの説明

mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval Xin Zhang, Yanzhao Zhang, Dingkun Long, Wen Xie, Ziqi Dai, Jialong Tang, Huan Lin, Baosong Yang, Pengjun Xie, Fei Huang, Meishan Zhang, Wenjie Li, Min Zhang, arXiv 2024

モデルの使用方法

ゼロショット分類パイプラインを使用する場合

モデルは、以下のようにzero-shot-classificationパイプラインでロードできます。

from transformers import AutoTokenizer, pipeline
model = "mjwong/gte-multilingual-base-xnli-anli"
tokenizer = AutoTokenizer.from_pretrained(model)
classifier = pipeline("zero-shot-classification",
                      model=model,
                      tokenizer=tokenizer,
                      trust_remote_code=True
                      )

このパイプラインを使用して、指定したクラス名のいずれかにシーケンスを分類できます。

sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels)

複数の候補ラベルが正しい場合、multi_class=Trueを渡して各クラスを独立して計算できます。

candidate_labels = ['travel', 'cooking', 'dancing', 'exploration']
classifier(sequence_to_classify, candidate_labels, multi_class=True)

手動でPyTorchを使用する場合

モデルは、以下のようにNLIタスクにも適用できます。

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# device = "cuda:0" or "cpu"
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

model_name = "mjwong/gte-multilingual-base-xnli-anli"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name, trust_remote_code=True)

premise = "But I thought you'd sworn off coffee."
hypothesis = "I thought that you vowed to drink more coffee."

input = tokenizer(premise, hypothesis, truncation=True, return_tensors="pt")
output = model(input["input_ids"].to(device))
prediction = torch.softmax(output["logits"][0], -1).tolist()
label_names = ["entailment", "neutral", "contradiction"]
prediction = {name: round(float(pred) * 100, 2) for pred, name in zip(prediction, label_names)}
print(prediction)

評価結果

モデルは、XNLIのテストセットを使用して、15の言語（英語 (en)、アラビア語 (ar)、ブルガリア語 (bg)、ドイツ語 (de)、ギリシャ語 (el)、スペイン語 (es)、フランス語 (fr)、ヒンディー語 (hi)、ロシア語 (ru)、スワヒリ語 (sw)、タイ語 (th)、トルコ語 (tr)、ウルドゥー語 (ur)、ベトナム語 (vi)、中国語 (zh)）で評価されました。使用された指標は正解率です。

データセット	en	ar	bg	de	el	es	fr	hi	ru	sw	th	tr	ur	vi	zh
gte-multilingual-base-xnli	0.854	0.767	0.811	0.798	0.801	0.820	0.818	0.753	0.792	0.719	0.766	0.769	0.701	0.799	0.798
gte-multilingual-base-xnli-anli	0.843	0.738	0.793	0.773	0.776	0.801	0.788	0.727	0.775	0.689	0.746	0.747	0.687	0.773	0.779