spanish_xlm_xnliオープンソースモデル - 無料でデプロイ可能、スペイン語のゼロショットテキスト分類を実現

ホーム

Spanish Xlm Xnli

moritによって開発

XLM-Roberta-baseモデルを基に、多言語のTwitter大規模コーパスで事前学習され、スペイン語XNLIデータセットでファインチューニングされた、ゼロショットテキスト分類タスクに適したモデルです。

大規模言語モデル

Transformers

スペイン語オープンソースライセンス:MIT #スペイン語ゼロショット分類 #多言語ツイート事前学習 #XNLIファインチューニング

ダウンロード数 18

リリース時間 : 12/29/2022

モデル概要

このモデルはスペイン語のゼロショットテキスト分類に特化しており、特にヘイトスピーチ検出分野で優れた性能を発揮します。また100言語においても一定の効果を示します。

モデル特徴

多言語事前学習

100言語での事前学習を基に、言語横断的理解能力を備えています。

スペイン語最適化

スペイン語XNLIデータセットで特別にファインチューニングされており、スペイン語タスクで優れた性能を発揮します。

ゼロショット分類

特定タスクの訓練なしで分類が可能で、柔軟な応用シーンをサポートします。

モデル能力

ゼロショットテキスト分類

多言語理解

ヘイトスピーチ検出

使用事例

コンテンツモデレーション

ヘイトスピーチ検出

スペイン語ソーシャルメディアにおけるヘイトスピーチコンテンツを識別します。

テキスト分類

トピック分類

スペイン語テキストをトピック分類（政治とスポーツの区別など）します。

サンプル精度81.3%

🚀 XLM-ROBERTA-BASE-XNLI-ES

このモデルは、多言語の大規模なTwitterコーパスで事前学習を続けたXLM-Roberta-baseモデルをベースにしています。ハイトスピーチ検出の分野でのゼロショットテキスト分類を行うために開発され、スペイン語に特化しています。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

ゼロショット分類パイプラインでの使用

from transformers import pipeline
classifier = pipeline("zero-shot-classification",
                      model="morit/spanish_xlm_xnli")

モデルをロードした後、上記の言語でシーケンスを分類できます。シーケンスと一致する仮説を指定することで、提案された候補ラベルを分類できます。

sequence_to_classify = "Creo que Lionel Messi es el mejor futbolista del mundo."

# 候補ラベルと仮説を指定できます:
candidate_labels = ["politíca", "futbol"]
hypothesis_template = "Este ejemplo es {}"

# 提供された情報を使用して分類
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)

# 出力
#{'sequence': 'Creo que Lionel Messi es el mejor futbolista del mundo.',
# 'labels': ['futbol', 'politíca'],
# 'scores': [0.813454806804657, 0.18654517829418182]}

✨ 主な機能

ゼロショットテキスト分類を行うことができます。
ベースモデルが100言語で事前学習されているため、他の言語でも一定の有効性を示します。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import pipeline
classifier = pipeline("zero-shot-classification",
                      model="morit/spanish_xlm_xnli")
sequence_to_classify = "Creo que Lionel Messi es el mejor futbolista del mundo."
candidate_labels = ["politíca", "futbol"]
hypothesis_template = "Este ejemplo es {}"
result = classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)
print(result)

高度な使用法

# 複数のシーケンスを一度に分類する例
sequences = ["Creo que Lionel Messi es el mejor futbolista del mundo.", "Me gusta la política"]
candidate_labels = ["politíca", "futbol"]
hypothesis_template = "Este ejemplo es {}"
classifier = pipeline("zero-shot-classification", model="morit/spanish_xlm_xnli")
for sequence in sequences:
    result = classifier(sequence, candidate_labels, hypothesis_template=hypothesis_template)
    print(result)