🚀 模型卡:CLF - SENTIMENTOS - CMTS微调版XLM - RoBERTa
本模型运用机器学习技术,专门处理葡萄牙语社交媒体文本的情感分类任务,还能处理表情符号。它基于XLM - RoBERTa这一强大的Transformer架构,在多语言数据上预训练后,针对巴西葡萄牙语情感分类任务进行了微调。
🚀 快速开始
要使用该模型,只需将短文本作为输入传入情感分析管道,模型会将文本情感分类为:积极、消极或中性。以下是使用Python和Transformers库调用模型的示例:
from transformers import pipeline
analise_sentimento = pipeline("text-classification", model="tbluhm/clf-sentimentos-cmts")
texto = "Excelente notícia para todos os brasileiros!"
resultado = analise_sentimento(texto)
print(resultado)
✨ 主要特性
- 精准情感分类:对巴西葡萄牙语社交媒体文本进行深度分析,结合上下文和表情符号,准确判断情感倾向。
- 多场景应用:可用于社交媒体情感分析、产品评价和客户反馈等多种场景。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
from transformers import pipeline
analise_sentimento = pipeline("text-classification", model="tbluhm/clf-sentimentos-cmts")
texto = "Excelente notícia para todos os brasileiros!"
resultado = analise_sentimento(texto)
print(resultado)
📚 详细文档
模型描述
clf - sentimentos - cmts模型运用机器学习技术,处理特定的自然语言处理(NLP)任务,特别是对巴西葡萄牙语社交媒体文本进行情感分类,还能处理表情符号。它是XLM - RoBERTa的微调版本,XLM - RoBERTa是一种在大量多语言数据上预训练的高效且强大的Transformer架构。
与标准语言模型训练不同,tbluhm/clf - sentimentos - cmts的微调过程是在特定数据集上调整XLM - RoBERTa的参数,使其更适合巴西葡萄牙语的情感文本分类任务,并能解读表情符号。该多样化数据集包含政治人物、艺术家和汽车行业公司的评论,反映了巴西社交媒体中的各种语境和语言表达。
当输入社交媒体评论时,模型会对每个单词和表情符号进行深度分析,考虑文本的整体语境。通过注意力机制,它能权衡每个元素对评论整体情感的重要性,从而实现基于文本语境和语义理解的准确分类,包括对表情符号的解读。
例如,若用户使用笑脸表情符号表达对产品或服务的满意,模型会将情感识别为积极;若用户使用悲伤表情符号表达不满或批评,模型会将情感分类为消极;对于未明确表达情感或纯信息性的评论,模型会将其标记为中性。
除了直接应用于巴西葡萄牙语社交媒体评论的情感分类,tbluhm/clf - sentimentos - cmts模型还有广泛的潜在应用。企业可利用该模型监测公众对其产品和服务在社交媒体平台上的看法,识别新兴趋势和改进领域。此外,该模型还可用于自动内容审核,自动过滤消极或不适当的评论。
模型来源
本模型是xlm - roberta - base - tweet - sentiment - pt的微调版本。
性能指标
模型在评估集上取得了以下结果:
- 损失(Loss):0.7189
- 准确率(Accuracy):0.6467
- F1值:0.5588
模型目标
本模型的目标是将短文本的情感分类为积极、消极或中性。它可用于多种应用,包括社交媒体情感分析、产品评价和客户反馈。
预期用途
使用模型时,只需将短文本作为输入传入情感分析管道,模型会将文本情感分类为:积极、消极或中性。
训练数据
模型在包含产品评价、推文和其他短文本来源的多语言数据集上进行了微调,训练数据集包含超过100万个标注示例。
局限性和伦理考虑
需要注意的是,模型可能无法捕捉人类情感的所有方面,在所有情况下可能并非完美。此外,模型可能反映训练数据中存在的偏差。因此,建议谨慎使用该模型,并考虑其局限性。
🔧 技术细节
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):2e - 05
- 训练批次大小(train_batch_size):64
- 评估批次大小(eval_batch_size):64
- 随机种子(seed):42
- 优化器(optimizer):Adam,β=(0.9, 0.999),ε = 1e - 08
- 学习率调度器类型(lr_scheduler_type):线性
- 训练轮数(num_epochs):2
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
准确率 |
F1值 |
0.7039 |
1.0 |
9 |
0.7650 |
0.6413 |
0.5526 |
0.6487 |
2.0 |
18 |
0.7189 |
0.6467 |
0.5588 |
框架版本
- Transformers 4.38.2
- Pytorch 2.2.1 + cpu
- Datasets 2.18.0
- Tokenizers 0.15.2
📄 许可证
本项目采用MIT许可证。
引用信息
作者:Thiago D. Faria Bluhm. (2024).
改编自:[XLM - ROBERTA](https://huggingface.co/FacebookAI/xlm - roberta - base).
贡献致谢
贡献者:Wesley Dos Anjos, Pedro Lustosa, Amanda Rangel, Audrey Marx, Gabriel Leal和Tiago Vettorazi。