xlm-roberta-base-snli-mnli-anli-xnli开源模型 - 助力零样本与小样本多语言文本分类

首页

Xlm Roberta Base Snli Mnli Anli Xnli

由 symanto 开发

一个基于XLM-RoBERTa的多语言NLI模型，专为零样本和小样本文本分类任务设计。

文本分类

Transformers

支持多种语言#零样本分类 #多语言NLI #交叉注意力

下载量 320

发布时间 : 3/2/2022

模型简介

该模型是在多个自然语言推理数据集上训练的交叉注意力模型，支持多种语言的零样本和小样本文本分类任务。

模型特点

多语言支持

支持14种语言的零样本和小样本文本分类任务

交叉注意力架构

采用交叉注意力机制处理文本对关系，适合NLI任务

多数据集训练

在SNLI、MNLI、ANLI和XNLI四个主流NLI数据集上训练

模型能力

零样本文本分类

小样本文本分类

多语言文本理解

自然语言推理

使用案例

情感分析

零样本情感分类

无需特定训练数据即可判断文本情感倾向

如示例所示，能准确识别积极/消极情感

内容分类

多语言内容分类

对多种语言的文本进行零样本分类

🚀 跨注意力NLI模型

这是一个经过训练的跨注意力自然语言推理（NLI）模型，可用于零样本和少样本的文本分类任务。该模型基于xlm - roberta - base，能在多种语言环境下实现高效准确的文本分类。

✨ 主要特性

多语言支持：支持阿拉伯语（ar）、保加利亚语（bg）、德语（de）、希腊语（el）、英语（en）、西班牙语（es）、法语（fr）、俄语（ru）、泰语（th）、土耳其语（tr）、乌尔都语（ur）、越南语（vn）、中文（zh）等多种语言，还支持多语言模式。
零样本和少样本分类：无需大量标注数据，即可对文本进行分类。

📦 安装指南

文档未提供具体安装命令，跳过此章节。

💻 使用示例

基础用法

from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch
import numpy as np

model = AutoModelForSequenceClassification.from_pretrained("symanto/xlm-roberta-base-snli-mnli-anli-xnli")
tokenizer = AutoTokenizer.from_pretrained("symanto/xlm-roberta-base-snli-mnli-anli-xnli")

input_pairs = [
               ("I like this pizza.", "The sentence is positive."),
               ("I like this pizza.", "The sentence is negative."),
               ("I mag diese Pizza.", "Der Satz ist positiv."),
               ("I mag diese Pizza.", "Der Satz ist negativ."),
               ("Me gusta esta pizza.", "Esta frase es positivo."),
               ("Me gusta esta pizza.", "Esta frase es negativo."),
]
inputs = tokenizer(input_pairs, truncation="only_first", return_tensors="pt", padding=True)
logits = model(**inputs).logits
probs = torch.softmax(logits, dim=1)
probs = probs[..., [0]].tolist()
print("probs", probs)
np.testing.assert_almost_equal(probs, [[0.83], [0.04], [1.00], [0.00], [1.00], [0.00]], decimal=2)

高级用法

文档未提供高级用法代码示例，跳过此部分。

📚 详细文档

支持语言

属性	详情
支持语言	阿拉伯语（ar）、保加利亚语（bg）、德语（de）、希腊语（el）、英语（en）、西班牙语（es）、法语（fr）、俄语（ru）、泰语（th）、土耳其语（tr）、乌尔都语（ur）、越南语（vn）、中文（zh）、多语言模式