camembert-base-xnli开源模型 - 支持法语零样本分类，免费可用！

首页

Camembert Base Xnli

由 mtheo 开发

基于Camembert-base模型，在XNLI数据集的法语部分进行微调，支持法语零样本分类

文本分类

Transformers

支持多种语言开源协议:MIT #法语零样本分类 #自然语言推理 #XNLI微调

下载量 72

发布时间 : 8/7/2023

模型简介

这是一个专门针对法语文本的零样本分类模型，基于Camembert-base架构并在XNLI数据集上微调，可用于自然语言推理和文本分类任务。

模型特点

法语零样本分类

少数支持法语零样本分类的模型之一，无需微调即可对新类别进行分类

自然语言推理能力

可计算前提与假设之间的逻辑关系概率（蕴含/矛盾）

高效微调

在XNLI法语数据集上进行了优化微调，验证集准确率达81.4%

模型能力

法语文本分类

零样本学习

自然语言推理

前提-假设关系判断

使用案例

文本分类

新闻主题分类

无需训练即可对法语新闻进行主题分类（如体育/政治/科学）

在示例中体育主题分类准确率达85.95%

内容审核

违规内容检测

通过定义违规内容标签进行零样本检测

🚀 camembert-base-xnli

这是原始的BaptisteDoyen/camembert-base-xnli模型的副本，因为该模型当前显示404错误。以下是BaptisteDoyen/camembert-base-xnli页面上的模型卡片内容。本模型是在XNLI数据集的法语部分上微调的Camembert-base模型，是少数适用于法语的零样本分类模型之一 🇫🇷。

🚀 快速开始

此模型有两种不同的使用方式：

作为零样本序列分类器

classifier = pipeline("zero-shot-classification", 
                      model="BaptisteDoyen/camembert-base-xnli")

sequence = "L'équipe de France joue aujourd'hui au Parc des Princes"
candidate_labels = ["sport","politique","science"]
hypothesis_template = "Ce texte parle de {}."    

classifier(sequence, candidate_labels, hypothesis_template=hypothesis_template)     
# outputs :                                        
# {'sequence': "L'équipe de France joue aujourd'hui au Parc des Princes",
# 'labels': ['sport', 'politique', 'science'],
# 'scores': [0.8595073223114014, 0.10821866989135742, 0.0322740375995636]}

作为前提/假设检查器

这里的思路是计算形式为 $P(premise|hypothesis)$ 的概率。

# load model and tokenizer
nli_model = AutoModelForSequenceClassification.from_pretrained("BaptisteDoyen/camembert-base-xnli")
tokenizer = AutoTokenizer.from_pretrained("BaptisteDoyen/camembert-base-xnli") 
# sequences
premise = "le score pour les bleus est élevé"
hypothesis = "L'équipe de France a fait un bon match"
# tokenize and run through model
x = tokenizer.encode(premise, hypothesis, return_tensors='pt')
logits = nli_model(x)[0]
# we throw away "neutral" (dim 1) and take the probability of
# "entailment" (0) as the probability of the label being true 
entail_contradiction_logits = logits[:,::2]
probs = entail_contradiction_logits.softmax(dim=1)
prob_label_is_true = probs[:,0]
prob_label_is_true[0].tolist() * 100
# outputs
# 86.40775084495544

✨ 主要特性

基于Camembert-base模型，在XNLI数据集的法语部分上进行了微调。
是少数适用于法语的零样本分类模型之一。

📦 安装指南

使用以下命令加载训练数据：

from datasets import load_dataset
dataset = load_dataset('xnli', 'fr')

📚 详细文档

模型描述

Camembert-base模型在XNLI数据集的法语部分上进行了微调，是少数适用于法语的零样本分类模型之一 🇫🇷。

预期用途和限制

如何使用

有两种不同的使用方式：

作为零样本序列分类器：使用pipeline进行零样本序列分类。
作为前提/假设检查器：计算前提和假设之间的概率。

训练数据

训练数据是Facebook在2018年发布的XNLI数据集的法语部分。可以使用datasets库轻松加载。

训练/微调过程

训练过程相当基础，是在云端使用单个GPU进行的。主要训练参数如下：

lr = 2e-5 with lr_scheduler_type = "linear"
num_train_epochs = 4
batch_size = 12 (受GPU内存限制)
weight_decay = 0.01
metric_for_best_model = "eval_accuracy"

评估结果

在验证集和测试集上获得了以下结果：

数据集	准确率
验证集	81.4
测试集	81.7

🔧 技术细节

该模型基于Camembert-base架构，在XNLI数据集的法语部分上进行了微调。训练过程中使用了单个GPU，设置了特定的学习率、训练轮数、批次大小等参数。

📄 许可证

本模型使用MIT许可证。

属性	详情
模型类型	零样本分类模型
训练数据	Facebook在2018年发布的XNLI数据集的法语部分

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库