🚀 XLM-ROBERTA-BASE-XNLI_FR
本模型主要用於零樣本文本分類,在仇恨言論檢測領域表現出色,尤其針對法語數據進行了微調,同時基於預訓練的多語言模型,在其他語言上也有一定效果。
🚀 快速開始
零樣本分類管道使用
from transformers import pipeline
classifier = pipeline("zero-shot-classification",
model="morit/french_xlm_xnli")
加載模型後,你可以對上述提到的語言序列進行分類。你可以指定序列和匹配假設,以便對提出的候選標籤進行分類。
sequence_to_classify = "Je pense que Marcon va gagner les elections?"
candidate_labels = ["politique", "sport"]
hypothesis_template = "Cet example est {}"
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)
✨ 主要特性
- 基於XLM - Roberta - base模型,在多語言的Twitter大型語料庫上繼續預訓練。
- 按照類似Tweet Eval框架的策略開發。
- 針對法語的XNLI訓練數據集進行了微調,可用於零樣本文本分類,尤其在仇恨言論檢測領域表現出色。
- 由於基礎模型在100種不同語言上進行了預訓練,因此在其他語言上也有一定效果。
📦 安裝指南
文檔未提及具體安裝步驟,暫無法提供。
💻 使用示例
基礎用法
from transformers import pipeline
classifier = pipeline("zero-shot-classification",
model="morit/french_xlm_xnli")
高級用法
sequence_to_classify = "Je pense que Marcon va gagner les elections?"
candidate_labels = ["politique", "sport"]
hypothesis_template = "Cet example est {}"
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)
📚 詳細文檔
模型描述
該模型採用了XLM - Roberta - base模型,並在多語言的Twitter大型語料庫上繼續進行預訓練。它的開發策略與Tweet Eval框架中介紹的類似。此外,該模型還在XNLI訓練數據集的法語部分進行了進一步微調。
預期用途
此模型旨在進行零樣本文本分類,主要應用於仇恨言論檢測領域。由於它在法語數據上進行了微調,因此專注於法語。不過,由於基礎模型在100種不同語言上進行了預訓練,它在其他語言上也顯示出了一定的有效性。具體語言列表可參考XLM Roberta論文。
訓練
該模型首先在100種語言的數據集上進行預訓練,然後按照原論文所述,在1.98億條多語言推文上繼續訓練。此外,它還在法語的XNLI訓練集(MNLI數據集的機器翻譯版本)上進行訓練。模型在XNLI訓練集上進行了5個週期的訓練,並在每個週期結束時在XNLI評估數據集上進行評估,以找到性能最佳的模型。最終選擇在評估集上準確率最高的模型。

- 學習率:2e - 5
- 批量大小:32
- 最大序列長度:128
使用GPU(NVIDIA GeForce RTX 3090)進行訓練,訓練時間為1小時47分鐘。
評估
性能最佳的模型在XNLI測試集上進行評估,得到如下可比結果:
predict_accuracy = 78.02 %
🔧 技術細節
本模型基於XLM - Roberta - base架構,先在多語言的Twitter語料庫上預訓練,以學習多語言的語義信息。之後在法語的XNLI數據集上進行微調,使得模型能夠更好地適應法語的零樣本分類任務。訓練過程中,使用了特定的學習率、批量大小和最大序列長度等超參數,並在每個訓練週期結束時進行評估,以選擇性能最佳的模型。通過在XNLI測試集上的評估,驗證了模型的有效性。
📄 許可證
本項目採用MIT許可證。
屬性 |
詳情 |
模型類型 |
基於XLM - Roberta - base的零樣本分類模型 |
訓練數據 |
100種語言的預訓練數據、1.98億條多語言推文、法語的XNLI數據集 |