🚀 XLM-ROBERTA-BASE-XNLI-ES
本模型旨在解決零樣本文本分類在仇恨言論檢測領域的問題,尤其專注於西班牙語分類。它基於多語言預訓練,在其他語言上也有一定效果,為跨語言文本分類提供了有效解決方案。
🚀 快速開始
本模型可用於零樣本文本分類任務,尤其在仇恨言論檢測領域表現出色。以下是使用零樣本分類管道的示例代碼:
from transformers import pipeline
classifier = pipeline("zero-shot-classification",
model="morit/spanish_xlm_xnli")
加載模型後,你可以對上述提到的語言序列進行分類。你可以指定序列和匹配假設,以便對提議的候選標籤進行分類。
sequence_to_classify = "Creo que Lionel Messi es el mejor futbolista del mundo."
candidate_labels = ["politíca", "futbol"]
hypothesis_template = "Este ejemplo es {}"
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)
✨ 主要特性
- 基於XLM - Roberta - base模型,在多語言Twitter大型語料庫上繼續預訓練。
- 開發策略借鑑了Tweet Eval框架。
- 在XNLI訓練數據集的西班牙語部分進行了微調,專注於西班牙語的零樣本文本分類。
- 由於基礎模型在100種不同語言上進行了預訓練,在其他語言上也有一定效果。
📦 安裝指南
文檔未提及具體安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import pipeline
classifier = pipeline("zero-shot-classification",
model="morit/spanish_xlm_xnli")
高級用法
sequence_to_classify = "Creo que Lionel Messi es el mejor futbolista del mundo."
candidate_labels = ["politíca", "futbol"]
hypothesis_template = "Este ejemplo es {}"
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)
📚 詳細文檔
模型描述
該模型採用XLM - Roberta - base模型,並在多語言的Twitter大型語料庫上繼續進行預訓練。它的開發策略與Tweet Eval框架中介紹的類似。此外,該模型還在XNLI訓練數據集的西班牙語部分進行了微調。
預期用途
此模型專為仇恨言論檢測領域的零樣本文本分類而開發。由於它在西班牙語數據上進行了微調,因此主要專注於西班牙語。不過,由於基礎模型在100種不同語言上進行了預訓練,在其他語言上也顯示出了一定的有效性。具體語言列表請參考XLM Roberta論文。
訓練
該模型首先在100種語言的數據集上進行預訓練,然後按照原論文所述,在1.98億條多語言推文上進一步訓練。此外,它還在XNLI數據集的西班牙語訓練集上進行訓練,該數據集是MNLI數據集的機器翻譯版本。模型在XNLI訓練集上進行了5個輪次的訓練,並在每個輪次結束時在XNLI評估數據集上進行評估,以找到性能最佳的模型。最終選擇在評估集上準確率最高的模型。

- 學習率:2e - 5
- 批量大小:32
- 最大序列長度:128
使用GPU(NVIDIA GeForce RTX 3090)進行訓練,訓練時間為1小時47分鐘。
評估
在XNLI測試集上對性能最佳的模型進行評估,以獲得可比較的結果:
predict_accuracy = 79.20 %
🔧 技術細節
該模型基於XLM - Roberta - base架構,先在多語言Twitter語料庫上預訓練,再在XNLI西班牙語數據集上微調。訓練過程中,使用特定的學習率、批量大小和序列長度,在GPU上進行多輪訓練和評估,最終選擇在評估集上準確率最高的模型。這種訓練策略結合了多語言預訓練和特定語言微調,使得模型在零樣本文本分類任務中,尤其是西班牙語的仇恨言論檢測方面表現出色。
📄 許可證
本項目採用MIT許可證。