🚀 ByT5-base针对仇恨言论检测(推文)的微调模型
本模型是基于ByT5基础模型,在推文仇恨言论检测数据集上进行微调,用于序列分类下游任务。
✨ 主要特性
- 基于ByT5基础模型,该模型是Google的T5的无分词器版本,架构与MT5类似。
- 仅在mC4上进行预训练,未进行任何监督训练,平均跨度掩码为20个UTF - 8字符,因此需微调后才能用于下游任务。
- 在处理噪声文本数据方面表现出色,例如
google/byt5-base
在TweetQA上显著优于mt5-base。
📦 安装指南
git clone https://github.com/huggingface/transformers.git
pip install -q ./transformers
💻 使用示例
基础用法
from transformers import AutoTokenizer, T5ForConditionalGeneration
ckpt = 'Narrativa/byt5-base-tweet-hate-detection'
tokenizer = AutoTokenizer.from_pretrained(ckpt)
model = T5ForConditionalGeneration.from_pretrained(ckpt).to("cuda")
def classify_tweet(tweet):
inputs = tokenizer([tweet], padding='max_length', truncation=True, max_length=512, return_tensors='pt')
input_ids = inputs.input_ids.to('cuda')
attention_mask = inputs.attention_mask.to('cuda')
output = model.generate(input_ids, attention_mask=attention_mask)
return tokenizer.decode(output[0], skip_special_tokens=True)
classify_tweet('here goes your tweet...')
📚 详细文档
ByT5 - Base模型详情 🧠
ByT5是Google的T5的无分词器版本,总体遵循MT5的架构。ByT5仅在mC4上进行预训练,未进行任何监督训练,平均跨度掩码为20个UTF - 8字符。因此,该模型在用于下游任务之前必须进行微调。ByT5在处理噪声文本数据方面表现特别出色,例如,google/byt5-base
在TweetQA上的表现显著优于mt5-base。
论文:ByT5: Towards a token-free future with pre-trained byte-to-byte models
作者:Linting Xue, Aditya Barua, Noah Constant, Rami Al - Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel
下游任务详情(将序列分类作为文本生成) - 数据集 📚
推文仇恨言论检测
此任务的目标是检测推文中的仇恨言论。为简单起见,如果一条推文带有种族主义或性别歧视情绪,我们就认为它包含仇恨言论。因此,该任务是将种族主义或性别歧视的推文与其他推文区分开来。
从形式上讲,给定一组推文及其标签的训练样本,其中标签‘1’表示该推文是种族主义/性别歧视的,标签‘0’表示该推文不是种族主义/性别歧视的,你的目标是对给定测试数据集上的标签进行预测。
- 数据实例:
数据集包含一个标签,用于表示该推文是否为仇恨言论。
{'label': 0, # 非仇恨言论
'tweet': ' @user when a father is dysfunctional and is so selfish he drags his kids into his dysfunction. #run'}
测试集指标 🧾
我们选取了5%的条目创建了一个具有代表性的测试集。由于数据集存在严重的不平衡问题,模型的F1分数为79.8。
📄 许可证
文档未提及相关许可证信息。
本模型由Narrativa创建。
关于Narrativa:自然语言生成(NLG)| Gabriele是我们基于机器学习的平台,用于构建和部署自然语言解决方案。 #NLG #AI