camembert-base-xnli開源模型 - 支持法語零樣本分類，免費可用！

首頁

Camembert Base Xnli

由mtheo開發

基於Camembert-base模型，在XNLI數據集的法語部分進行微調，支持法語零樣本分類

文本分類

Transformers

支持多種語言開源協議:MIT #法語零樣本分類 #自然語言推理 #XNLI微調

下載量 72

發布時間 : 8/7/2023

模型概述

這是一個專門針對法語文本的零樣本分類模型，基於Camembert-base架構並在XNLI數據集上微調，可用於自然語言推理和文本分類任務。

模型特點

法語零樣本分類

少數支持法語零樣本分類的模型之一，無需微調即可對新類別進行分類

自然語言推理能力

可計算前提與假設之間的邏輯關係概率（蘊含/矛盾）

高效微調

在XNLI法語數據集上進行了優化微調，驗證集準確率達81.4%

模型能力

法語文本分類

零樣本學習

自然語言推理

前提-假設關係判斷

使用案例

文本分類

新聞主題分類

無需訓練即可對法語新聞進行主題分類（如體育/政治/科學）

在示例中體育主題分類準確率達85.95%

內容審核

違規內容檢測

通過定義違規內容標籤進行零樣本檢測

🚀 camembert-base-xnli

這是原始的BaptisteDoyen/camembert-base-xnli模型的副本，因為該模型當前顯示404錯誤。以下是BaptisteDoyen/camembert-base-xnli頁面上的模型卡片內容。本模型是在XNLI數據集的法語部分上微調的Camembert-base模型，是少數適用於法語的零樣本分類模型之一 🇫🇷。

🚀 快速開始

此模型有兩種不同的使用方式：

作為零樣本序列分類器

classifier = pipeline("zero-shot-classification", 
                      model="BaptisteDoyen/camembert-base-xnli")

sequence = "L'équipe de France joue aujourd'hui au Parc des Princes"
candidate_labels = ["sport","politique","science"]
hypothesis_template = "Ce texte parle de {}."    

classifier(sequence, candidate_labels, hypothesis_template=hypothesis_template)     
# outputs :                                        
# {'sequence': "L'équipe de France joue aujourd'hui au Parc des Princes",
# 'labels': ['sport', 'politique', 'science'],
# 'scores': [0.8595073223114014, 0.10821866989135742, 0.0322740375995636]}

作為前提/假設檢查器

這裡的思路是計算形式為 $P(premise|hypothesis)$ 的概率。

# load model and tokenizer
nli_model = AutoModelForSequenceClassification.from_pretrained("BaptisteDoyen/camembert-base-xnli")
tokenizer = AutoTokenizer.from_pretrained("BaptisteDoyen/camembert-base-xnli") 
# sequences
premise = "le score pour les bleus est élevé"
hypothesis = "L'équipe de France a fait un bon match"
# tokenize and run through model
x = tokenizer.encode(premise, hypothesis, return_tensors='pt')
logits = nli_model(x)[0]
# we throw away "neutral" (dim 1) and take the probability of
# "entailment" (0) as the probability of the label being true 
entail_contradiction_logits = logits[:,::2]
probs = entail_contradiction_logits.softmax(dim=1)
prob_label_is_true = probs[:,0]
prob_label_is_true[0].tolist() * 100
# outputs
# 86.40775084495544

✨ 主要特性

基於Camembert-base模型，在XNLI數據集的法語部分上進行了微調。
是少數適用於法語的零樣本分類模型之一。

📦 安裝指南

使用以下命令加載訓練數據：

from datasets import load_dataset
dataset = load_dataset('xnli', 'fr')

📚 詳細文檔

模型描述

Camembert-base模型在XNLI數據集的法語部分上進行了微調，是少數適用於法語的零樣本分類模型之一 🇫🇷。

預期用途和限制

如何使用

有兩種不同的使用方式：

作為零樣本序列分類器：使用pipeline進行零樣本序列分類。
作為前提/假設檢查器：計算前提和假設之間的概率。

訓練數據

訓練數據是Facebook在2018年發佈的XNLI數據集的法語部分。可以使用datasets庫輕鬆加載。

訓練/微調過程

訓練過程相當基礎，是在雲端使用單個GPU進行的。主要訓練參數如下：

lr = 2e-5 with lr_scheduler_type = "linear"
num_train_epochs = 4
batch_size = 12 (受GPU內存限制)
weight_decay = 0.01
metric_for_best_model = "eval_accuracy"

評估結果

在驗證集和測試集上獲得了以下結果：

數據集	準確率
驗證集	81.4
測試集	81.7

🔧 技術細節

該模型基於Camembert-base架構，在XNLI數據集的法語部分上進行了微調。訓練過程中使用了單個GPU，設置了特定的學習率、訓練輪數、批次大小等參數。

📄 許可證

本模型使用MIT許可證。

屬性	詳情
模型類型	零樣本分類模型
訓練數據	Facebook在2018年發佈的XNLI數據集的法語部分

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫