🚀 ByT5-base針對仇恨言論檢測(推文)的微調模型
本模型是基於ByT5基礎模型,在推文仇恨言論檢測數據集上進行微調,用於序列分類下游任務。
✨ 主要特性
- 基於ByT5基礎模型,該模型是Google的T5的無分詞器版本,架構與MT5類似。
- 僅在mC4上進行預訓練,未進行任何監督訓練,平均跨度掩碼為20個UTF - 8字符,因此需微調後才能用於下游任務。
- 在處理噪聲文本數據方面表現出色,例如
google/byt5-base
在TweetQA上顯著優於mt5-base。
📦 安裝指南
git clone https://github.com/huggingface/transformers.git
pip install -q ./transformers
💻 使用示例
基礎用法
from transformers import AutoTokenizer, T5ForConditionalGeneration
ckpt = 'Narrativa/byt5-base-tweet-hate-detection'
tokenizer = AutoTokenizer.from_pretrained(ckpt)
model = T5ForConditionalGeneration.from_pretrained(ckpt).to("cuda")
def classify_tweet(tweet):
inputs = tokenizer([tweet], padding='max_length', truncation=True, max_length=512, return_tensors='pt')
input_ids = inputs.input_ids.to('cuda')
attention_mask = inputs.attention_mask.to('cuda')
output = model.generate(input_ids, attention_mask=attention_mask)
return tokenizer.decode(output[0], skip_special_tokens=True)
classify_tweet('here goes your tweet...')
📚 詳細文檔
ByT5 - Base模型詳情 🧠
ByT5是Google的T5的無分詞器版本,總體遵循MT5的架構。ByT5僅在mC4上進行預訓練,未進行任何監督訓練,平均跨度掩碼為20個UTF - 8字符。因此,該模型在用於下游任務之前必須進行微調。ByT5在處理噪聲文本數據方面表現特別出色,例如,google/byt5-base
在TweetQA上的表現顯著優於mt5-base。
論文:ByT5: Towards a token-free future with pre-trained byte-to-byte models
作者:Linting Xue, Aditya Barua, Noah Constant, Rami Al - Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel
下游任務詳情(將序列分類作為文本生成) - 數據集 📚
推文仇恨言論檢測
此任務的目標是檢測推文中的仇恨言論。為簡單起見,如果一條推文帶有種族主義或性別歧視情緒,我們就認為它包含仇恨言論。因此,該任務是將種族主義或性別歧視的推文與其他推文區分開來。
從形式上講,給定一組推文及其標籤的訓練樣本,其中標籤‘1’表示該推文是種族主義/性別歧視的,標籤‘0’表示該推文不是種族主義/性別歧視的,你的目標是對給定測試數據集上的標籤進行預測。
- 數據實例:
數據集包含一個標籤,用於表示該推文是否為仇恨言論。
{'label': 0, # 非仇恨言論
'tweet': ' @user when a father is dysfunctional and is so selfish he drags his kids into his dysfunction. #run'}
測試集指標 🧾
我們選取了5%的條目創建了一個具有代表性的測試集。由於數據集存在嚴重的不平衡問題,模型的F1分數為79.8。
📄 許可證
文檔未提及相關許可證信息。
本模型由Narrativa創建。
關於Narrativa:自然語言生成(NLG)| Gabriele是我們基於機器學習的平臺,用於構建和部署自然語言解決方案。 #NLG #AI