🚀 尼日利亞推特情感分析模型 - afriberta-large
naija-twitter-sentiment-afriberta-large 是首個針對四種尼日利亞語言(豪薩語、伊博語、尼日利亞皮欽語和約魯巴語)的多語言推特 情感分類 模型。它基於微調後的 castorini/afriberta_large 大模型,在 NaijaSenti 語料庫 上進行訓練,在推特情感分類任務中達到了 最先進的性能。該模型經過訓練,可將推文分為三種情感類別:負面、中性和正面。
🚀 快速開始
你可以使用 Transformers 庫調用此模型進行情感分類。
基礎用法
from transformers import AutoModelForSequenceClassification
from transformers import AutoTokenizer
import numpy as np
from scipy.special import softmax
MODEL = "Davlan/naija-twitter-sentiment-afriberta-large"
tokenizer = AutoTokenizer.from_pretrained(MODEL)
model = AutoModelForSequenceClassification.from_pretrained(MODEL)
text = "I like you"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
scores = output[0][0].detach().numpy()
scores = softmax(scores)
id2label = {0:"positive", 1:"neutral", 2:"negative"}
ranking = np.argsort(scores)
ranking = ranking[::-1]
for i in range(scores.shape[0]):
l = id2label[ranking[i]]
s = scores[ranking[i]]
print(f"{i+1}) {l} {np.round(float(s), 4)}")
✨ 主要特性
- 多語言支持:支持豪薩語、伊博語、尼日利亞皮欽語和約魯巴語四種尼日利亞語言。
- 高性能表現:在 NaijaSenti 語料庫 上訓練,達到了最先進的性能。
- 情感分類:可將推文分為負面、中性和正面三種情感類別。
📦 安裝指南
文檔未提及安裝步驟,可參考 Transformers 庫的官方文檔進行安裝。
📚 詳細文檔
模型描述
naija-twitter-sentiment-afriberta-large 是基於微調後的 castorini/afriberta_large 大模型構建的多語言推特情感分類模型。具體而言,它是一個 xlm-roberta-large 模型,在從 NaijaSenti 數據集獲取的四種尼日利亞語言數據集的聚合數據上進行了微調。
預期用途與侷限性
使用方法
你可以使用 Transformers 庫調用此模型進行情感分類,具體代碼示例見“快速開始”部分。
侷限性和偏差
該模型受其訓練數據集和領域(即推特)的限制,可能無法在不同領域的所有用例中實現良好的泛化。
訓練過程
此模型在單個英偉達 RTX 2080 GPU 上進行訓練,使用了 原始 NaijaSenti 論文 中推薦的超參數。
測試集評估結果(F1 分數),5 次運行的平均值
語言 |
F1 分數 |
豪薩語 (hau) |
81.2 |
伊博語 (ibo) |
80.8 |
尼日利亞皮欽語 (pcm) |
74.5 |
約魯巴語 (yor) |
80.4 |
BibTeX 引用信息
@inproceedings{Muhammad2022NaijaSentiAN,
title={NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual Sentiment Analysis},
author={Shamsuddeen Hassan Muhammad and David Ifeoluwa Adelani and Sebastian Ruder and Ibrahim Said Ahmad and Idris Abdulmumin and Bello Shehu Bello and Monojit Choudhury and Chris C. Emezue and Saheed Salahudeen Abdullahi and Anuoluwapo Aremu and Alipio Jeorge and Pavel B. Brazdil},
year={2022}
}