🚀 XLM-ROBERTA-BASE-XNLI-ZH
本模型可用於零樣本文本分類,尤其在中文仇恨言論檢測領域表現出色。它基於多語言預訓練的XLM-Roberta-base模型,經進一步微調,能有效處理多種語言的文本分類任務。
🚀 快速開始
使用零樣本分類管道
from transformers import pipeline
classifier = pipeline("zero-shot-classification",
model="morit/chinese_xlm_xnli")
✨ 主要特性
- 多語言預訓練:基於在100種語言上預訓練的XLM-Roberta-base模型,在多語言文本處理上有天然優勢。
- 針對性微調:在XNLI中文訓練集上進行微調,專注於中文文本的零樣本分類任務。
- 應用場景明確:主要用於仇恨言論檢測領域的零樣本文本分類。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
💻 使用示例
基礎用法
from transformers import pipeline
classifier = pipeline("zero-shot-classification",
model="morit/chinese_xlm_xnli")
📚 詳細文檔
模型描述
該模型採用XLM-Roberta-base模型,並在多語言的大型Twitter語料庫上繼續進行預訓練。它的開發策略與Tweet Eval框架中介紹的類似。此外,該模型還在XNLI訓練數據集的德語部分進行了進一步微調。
預期用途
此模型旨在進行仇恨言論檢測領域的零樣本文本分類。由於它在中文數據上進行了微調,因此主要聚焦於中文。不過,由於基礎模型在100種不同語言上進行了預訓練,它在其他語言上也表現出了一定的有效性。具體語言列表請參考XLM Roberta論文。
訓練情況
該模型首先在100種語言上進行預訓練,然後按照原論文所述,在1.98億條多語言推文上繼續訓練。此外,它還在XNLI中文訓練集(MNLI數據集的機器翻譯版本)上進行訓練。模型在XNLI訓練集上進行了5個輪次的訓練,並在每個輪次結束時在XNLI評估數據集上進行評估,以選出性能最佳的模型。最終選擇在評估集上準確率最高的模型。

- 學習率:2e-5
- 批量大小:32
- 最大序列長度:128
使用GPU(NVIDIA GeForce RTX 3090)進行訓練,訓練時間為1小時47分鐘。
評估情況
對性能最佳的模型在XNLI測試集上進行評估,以獲得可比較的結果。
預測準確率 = 76.17 %
🔧 技術細節
本模型基於XLM-Roberta-base架構,通過在多語言Twitter語料庫上繼續預訓練和在XNLI中文訓練集上微調,提升了在中文零樣本文本分類任務上的性能。訓練過程中採用了特定的學習率、批量大小和最大序列長度等超參數,並使用GPU進行加速訓練。
📄 許可證
本模型採用MIT許可證。
屬性 |
詳情 |
模型類型 |
基於XLM-Roberta-base的零樣本分類模型 |
訓練數據 |
100種語言預訓練數據、1.98億條多語言推文、XNLI中文訓練集 |
評估指標 |
準確率 |
適用任務 |
零樣本文本分類(仇恨言論檢測) |