🚀 模型卡:CLF - SENTIMENTOS - CMTS微調版XLM - RoBERTa
本模型運用機器學習技術,專門處理葡萄牙語社交媒體文本的情感分類任務,還能處理表情符號。它基於XLM - RoBERTa這一強大的Transformer架構,在多語言數據上預訓練後,針對巴西葡萄牙語情感分類任務進行了微調。
🚀 快速開始
要使用該模型,只需將短文本作為輸入傳入情感分析管道,模型會將文本情感分類為:積極、消極或中性。以下是使用Python和Transformers庫調用模型的示例:
from transformers import pipeline
analise_sentimento = pipeline("text-classification", model="tbluhm/clf-sentimentos-cmts")
texto = "Excelente notícia para todos os brasileiros!"
resultado = analise_sentimento(texto)
print(resultado)
✨ 主要特性
- 精準情感分類:對巴西葡萄牙語社交媒體文本進行深度分析,結合上下文和表情符號,準確判斷情感傾向。
- 多場景應用:可用於社交媒體情感分析、產品評價和客戶反饋等多種場景。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import pipeline
analise_sentimento = pipeline("text-classification", model="tbluhm/clf-sentimentos-cmts")
texto = "Excelente notícia para todos os brasileiros!"
resultado = analise_sentimento(texto)
print(resultado)
📚 詳細文檔
模型描述
clf - sentimentos - cmts模型運用機器學習技術,處理特定的自然語言處理(NLP)任務,特別是對巴西葡萄牙語社交媒體文本進行情感分類,還能處理表情符號。它是XLM - RoBERTa的微調版本,XLM - RoBERTa是一種在大量多語言數據上預訓練的高效且強大的Transformer架構。
與標準語言模型訓練不同,tbluhm/clf - sentimentos - cmts的微調過程是在特定數據集上調整XLM - RoBERTa的參數,使其更適合巴西葡萄牙語的情感文本分類任務,並能解讀表情符號。該多樣化數據集包含政治人物、藝術家和汽車行業公司的評論,反映了巴西社交媒體中的各種語境和語言表達。
當輸入社交媒體評論時,模型會對每個單詞和表情符號進行深度分析,考慮文本的整體語境。通過注意力機制,它能權衡每個元素對評論整體情感的重要性,從而實現基於文本語境和語義理解的準確分類,包括對錶情符號的解讀。
例如,若用戶使用笑臉表情符號表達對產品或服務的滿意,模型會將情感識別為積極;若用戶使用悲傷表情符號表達不滿或批評,模型會將情感分類為消極;對於未明確表達情感或純信息性的評論,模型會將其標記為中性。
除了直接應用於巴西葡萄牙語社交媒體評論的情感分類,tbluhm/clf - sentimentos - cmts模型還有廣泛的潛在應用。企業可利用該模型監測公眾對其產品和服務在社交媒體平臺上的看法,識別新興趨勢和改進領域。此外,該模型還可用於自動內容審核,自動過濾消極或不適當的評論。
模型來源
本模型是xlm - roberta - base - tweet - sentiment - pt的微調版本。
性能指標
模型在評估集上取得了以下結果:
- 損失(Loss):0.7189
- 準確率(Accuracy):0.6467
- F1值:0.5588
模型目標
本模型的目標是將短文本的情感分類為積極、消極或中性。它可用於多種應用,包括社交媒體情感分析、產品評價和客戶反饋。
預期用途
使用模型時,只需將短文本作為輸入傳入情感分析管道,模型會將文本情感分類為:積極、消極或中性。
訓練數據
模型在包含產品評價、推文和其他短文本來源的多語言數據集上進行了微調,訓練數據集包含超過100萬個標註示例。
侷限性和倫理考慮
需要注意的是,模型可能無法捕捉人類情感的所有方面,在所有情況下可能並非完美。此外,模型可能反映訓練數據中存在的偏差。因此,建議謹慎使用該模型,並考慮其侷限性。
🔧 技術細節
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):2e - 05
- 訓練批次大小(train_batch_size):64
- 評估批次大小(eval_batch_size):64
- 隨機種子(seed):42
- 優化器(optimizer):Adam,β=(0.9, 0.999),ε = 1e - 08
- 學習率調度器類型(lr_scheduler_type):線性
- 訓練輪數(num_epochs):2
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
準確率 |
F1值 |
0.7039 |
1.0 |
9 |
0.7650 |
0.6413 |
0.5526 |
0.6487 |
2.0 |
18 |
0.7189 |
0.6467 |
0.5588 |
框架版本
- Transformers 4.38.2
- Pytorch 2.2.1 + cpu
- Datasets 2.18.0
- Tokenizers 0.15.2
📄 許可證
本項目採用MIT許可證。
引用信息
作者:Thiago D. Faria Bluhm. (2024).
改編自:[XLM - ROBERTA](https://huggingface.co/FacebookAI/xlm - roberta - base).
貢獻致謝
貢獻者:Wesley Dos Anjos, Pedro Lustosa, Amanda Rangel, Audrey Marx, Gabriel Leal和Tiago Vettorazi。