🚀 尼日利亚推特情感分析模型 - afriberta-large
naija-twitter-sentiment-afriberta-large 是首个针对四种尼日利亚语言(豪萨语、伊博语、尼日利亚皮钦语和约鲁巴语)的多语言推特 情感分类 模型。它基于微调后的 castorini/afriberta_large 大模型,在 NaijaSenti 语料库 上进行训练,在推特情感分类任务中达到了 最先进的性能。该模型经过训练,可将推文分为三种情感类别:负面、中性和正面。
🚀 快速开始
你可以使用 Transformers 库调用此模型进行情感分类。
基础用法
from transformers import AutoModelForSequenceClassification
from transformers import AutoTokenizer
import numpy as np
from scipy.special import softmax
MODEL = "Davlan/naija-twitter-sentiment-afriberta-large"
tokenizer = AutoTokenizer.from_pretrained(MODEL)
model = AutoModelForSequenceClassification.from_pretrained(MODEL)
text = "I like you"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
scores = output[0][0].detach().numpy()
scores = softmax(scores)
id2label = {0:"positive", 1:"neutral", 2:"negative"}
ranking = np.argsort(scores)
ranking = ranking[::-1]
for i in range(scores.shape[0]):
l = id2label[ranking[i]]
s = scores[ranking[i]]
print(f"{i+1}) {l} {np.round(float(s), 4)}")
✨ 主要特性
- 多语言支持:支持豪萨语、伊博语、尼日利亚皮钦语和约鲁巴语四种尼日利亚语言。
- 高性能表现:在 NaijaSenti 语料库 上训练,达到了最先进的性能。
- 情感分类:可将推文分为负面、中性和正面三种情感类别。
📦 安装指南
文档未提及安装步骤,可参考 Transformers 库的官方文档进行安装。
📚 详细文档
模型描述
naija-twitter-sentiment-afriberta-large 是基于微调后的 castorini/afriberta_large 大模型构建的多语言推特情感分类模型。具体而言,它是一个 xlm-roberta-large 模型,在从 NaijaSenti 数据集获取的四种尼日利亚语言数据集的聚合数据上进行了微调。
预期用途与局限性
使用方法
你可以使用 Transformers 库调用此模型进行情感分类,具体代码示例见“快速开始”部分。
局限性和偏差
该模型受其训练数据集和领域(即推特)的限制,可能无法在不同领域的所有用例中实现良好的泛化。
训练过程
此模型在单个英伟达 RTX 2080 GPU 上进行训练,使用了 原始 NaijaSenti 论文 中推荐的超参数。
测试集评估结果(F1 分数),5 次运行的平均值
语言 |
F1 分数 |
豪萨语 (hau) |
81.2 |
伊博语 (ibo) |
80.8 |
尼日利亚皮钦语 (pcm) |
74.5 |
约鲁巴语 (yor) |
80.4 |
BibTeX 引用信息
@inproceedings{Muhammad2022NaijaSentiAN,
title={NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual Sentiment Analysis},
author={Shamsuddeen Hassan Muhammad and David Ifeoluwa Adelani and Sebastian Ruder and Ibrahim Said Ahmad and Idris Abdulmumin and Bello Shehu Bello and Monojit Choudhury and Chris C. Emezue and Saheed Salahudeen Abdullahi and Anuoluwapo Aremu and Alipio Jeorge and Pavel B. Brazdil},
year={2022}
}