🚀 🤗 + neuraly - 意大利语BERT情感分析模型
本模型可对意大利语句子进行情感分析,借助先进的机器学习技术,为意大利语情感理解提供高效、准确的解决方案。
🚀 快速开始
此模型用于对意大利语句子进行情感分析。它基于 bert-base-italian-cased 实例进行训练,并在一个意大利语推文数据集上进行微调,在该数据集上达到了 82% 的准确率。
✨ 主要特性
- 基于预训练的意大利语 BERT 模型进行微调,具有较高的准确性。
- 能够对意大利语句子进行情感分析。
💻 使用示例
基础用法
import torch
from torch import nn
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("neuraly/bert-base-italian-cased-sentiment")
model = AutoModelForSequenceClassification.from_pretrained("neuraly/bert-base-italian-cased-sentiment")
sentence = 'Huggingface è un team fantastico!'
input_ids = tokenizer.encode(sentence, add_special_tokens=True)
tensor = torch.tensor(input_ids).long()
tensor = tensor.unsqueeze(0)
logits, = model(tensor)
logits = logits.squeeze(0)
proba = nn.functional.softmax(logits, dim=0)
negative, neutral, positive = proba
📚 详细文档
预期用途和限制
如何使用
上述代码示例展示了如何使用该模型进行情感分析。
限制和偏差
该模型的一个可能缺点(或偏差)与它在推文数据集上训练有关,这带来了一些局限性。该数据集的领域与足球运动员和球队密切相关,但令人惊讶的是,它在其他主题上也表现良好。
训练数据
我们通过合并从 Sentipolc EVALITA 2016 获取的两个推文数据集来训练该模型。总体而言,该数据集包含 45K 条预处理后的推文。
模型的权重来自 bert-base-italian-cased 的预训练实例。非常感谢该团队的出色工作!
训练过程
预处理
由于 BERT 能够很好地捕捉复杂文本序列的语义,我们尽量保留了尽可能多的信息。总体而言,我们仅从每条推文中删除了 @提及、网址 和 电子邮件,并保留了其他大部分内容。
硬件
- GPU:Nvidia GTX1080ti
- CPU:AMD Ryzen7 3700x 8c/16t
- 内存:64GB DDR4
超参数
- 优化器:学习率为 2e-5、epsilon 为 1e-8 的 AdamW
- 最大训练轮数:5
- 批次大小:32
- 提前停止:启用,耐心值为 1
在 3 个训练轮次后触发了提前停止。
评估结果
该模型在测试集上的总体准确率达到了 82%。
测试集是整个数据集的 20% 划分。
关于我们
Neuraly 是一家年轻而充满活力的初创公司,致力于通过最先进的机器学习和数据科学技术设计由人工智能驱动的解决方案和服务。您可以在我们的 网站 上了解更多关于我们是谁以及我们的业务内容。
致谢
感谢 Hugging Face 团队的慷慨支持,我们可以从他们的 S3 存储中下载该模型,并通过他们的推理 API 进行实时测试 🤗。
📄 许可证
本项目采用 MIT 许可证。
属性 |
详情 |
模型类型 |
意大利语BERT情感分析模型 |
训练数据 |
来自 Sentipolc EVALITA 2016 的两个推文数据集,共 45K 条预处理后的推文 |