xlm-roberta-base-snli-mnli-anli-xnli開源模型 - 助力零樣本與小樣本多語言文本分類

首頁

Xlm Roberta Base Snli Mnli Anli Xnli

由symanto開發

一個基於XLM-RoBERTa的多語言NLI模型，專為零樣本和小樣本文本分類任務設計。

文本分類

Transformers

支持多種語言#零樣本分類 #多語言NLI #交叉注意力

下載量 320

發布時間 : 3/2/2022

模型概述

該模型是在多個自然語言推理數據集上訓練的交叉注意力模型，支持多種語言的零樣本和小樣本文本分類任務。

模型特點

多語言支持

支持14種語言的零樣本和小樣本文本分類任務

交叉注意力架構

採用交叉注意力機制處理文本對關係，適合NLI任務

多數據集訓練

在SNLI、MNLI、ANLI和XNLI四個主流NLI數據集上訓練

模型能力

零樣本文本分類

小樣本文本分類

多語言文本理解

自然語言推理

使用案例

情感分析

零樣本情感分類

無需特定訓練數據即可判斷文本情感傾向

如示例所示，能準確識別積極/消極情感

內容分類

多語言內容分類

對多種語言的文本進行零樣本分類

🚀 跨注意力NLI模型

這是一個經過訓練的跨注意力自然語言推理（NLI）模型，可用於零樣本和少樣本的文本分類任務。該模型基於xlm - roberta - base，能在多種語言環境下實現高效準確的文本分類。

✨ 主要特性

多語言支持：支持阿拉伯語（ar）、保加利亞語（bg）、德語（de）、希臘語（el）、英語（en）、西班牙語（es）、法語（fr）、俄語（ru）、泰語（th）、土耳其語（tr）、烏爾都語（ur）、越南語（vn）、中文（zh）等多種語言，還支持多語言模式。
零樣本和少樣本分類：無需大量標註數據，即可對文本進行分類。

📦 安裝指南

文檔未提供具體安裝命令，跳過此章節。

💻 使用示例

基礎用法

from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch
import numpy as np

model = AutoModelForSequenceClassification.from_pretrained("symanto/xlm-roberta-base-snli-mnli-anli-xnli")
tokenizer = AutoTokenizer.from_pretrained("symanto/xlm-roberta-base-snli-mnli-anli-xnli")

input_pairs = [
               ("I like this pizza.", "The sentence is positive."),
               ("I like this pizza.", "The sentence is negative."),
               ("I mag diese Pizza.", "Der Satz ist positiv."),
               ("I mag diese Pizza.", "Der Satz ist negativ."),
               ("Me gusta esta pizza.", "Esta frase es positivo."),
               ("Me gusta esta pizza.", "Esta frase es negativo."),
]
inputs = tokenizer(input_pairs, truncation="only_first", return_tensors="pt", padding=True)
logits = model(**inputs).logits
probs = torch.softmax(logits, dim=1)
probs = probs[..., [0]].tolist()
print("probs", probs)
np.testing.assert_almost_equal(probs, [[0.83], [0.04], [1.00], [0.00], [1.00], [0.00]], decimal=2)

高級用法

文檔未提供高級用法代碼示例，跳過此部分。

📚 詳細文檔

支持語言

屬性	詳情
支持語言	阿拉伯語（ar）、保加利亞語（bg）、德語（de）、希臘語（el）、英語（en）、西班牙語（es）、法語（fr）、俄語（ru）、泰語（th）、土耳其語（tr）、烏爾都語（ur）、越南語（vn）、中文（zh）、多語言模式