🚀 bert-43-多標籤情感檢測模型
本模型旨在解決英文文本情感內容理解和分類的問題,可對英文句子的情感內容進行分類,為情感分析、社交媒體監測等應用提供支持。
🚀 快速開始
你可以按照以下代碼示例快速使用該模型:
from transformers import pipeline
model = 'borisn70/bert-43-multilabel-emotion-detection'
tokenizer = 'borisn70/bert-43-multilabel-emotion-detection'
nlp = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)
result = nlp("I feel great about this!")
print(result)
✨ 主要特性
- 基於“bert-base-uncased”進行微調,可將英文句子的情感內容分為43個類別。
- 在多個數據集上進行訓練,包括
tweet_emotions
、GoEmotions
和合成數據。
- 在驗證集上取得了較高的性能指標,如準確率達到92.02%。
📦 安裝指南
文檔未提及具體安裝命令,暫不提供安裝指南。
💻 使用示例
基礎用法
from transformers import pipeline
model = 'borisn70/bert-43-multilabel-emotion-detection'
tokenizer = 'borisn70/bert-43-multilabel-emotion-detection'
nlp = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)
result = nlp("I feel great about this!")
print(result)
📚 詳細文檔
模型描述
“bert-43-多標籤情感檢測”模型是“bert-base-uncased”的微調版本,經過訓練,可根據英文句子的情感內容將其分為43個類別之一。該模型在多個數據集的組合上進行訓練,包括tweet_emotions
、GoEmotions
和合成數據,總計約271,000條記錄,每個標籤約有6,306條記錄。
預期用途
該模型適用於任何需要理解或分類英文文本情感內容的應用,包括情感分析、社交媒體監測、客戶反饋分析等。
訓練數據
訓練數據包括以下數據集:
- Tweet Emotions
- GoEmotions
- 合成數據
訓練過程
該模型在Google Colab V100 GPU(16 GB RAM)上訓練了20個epoch,大約耗時6小時。使用了以下設置:
from transformers import TrainingArguments
training_args = TrainingArguments(
output_dir='results',
optim="adamw_torch",
learning_rate=2e-5,
num_train_epochs=20,
per_device_train_batch_size=128,
per_device_eval_batch_size=128,
warmup_steps=500,
weight_decay=0.01,
logging_dir='./logs',
logging_steps=100,
)
性能
該模型在驗證集上取得了以下性能指標:
- 準確率:92.02%
- 加權F1分數:91.93%
- 加權精確率:91.88%
- 加權召回率:92.02%
同時還提供了43個標籤中每個標籤的詳細性能信息。
標籤映射
標籤ID |
情感 |
0 |
欽佩 |
1 |
愉悅 |
2 |
憤怒 |
3 |
惱怒 |
4 |
認可 |
5 |
關懷 |
6 |
困惑 |
7 |
好奇 |
8 |
渴望 |
9 |
失望 |
10 |
不認可 |
11 |
厭惡 |
12 |
尷尬 |
13 |
興奮 |
14 |
恐懼 |
15 |
感激 |
16 |
悲痛 |
17 |
喜悅 |
18 |
愛 |
19 |
緊張 |
20 |
樂觀 |
21 |
驕傲 |
22 |
領悟 |
23 |
寬慰 |
24 |
懊悔 |
25 |
悲傷 |
26 |
驚訝 |
27 |
中立 |
28 |
擔憂 |
29 |
幸福 |
30 |
樂趣 |
31 |
仇恨 |
32 |
自主 |
33 |
安全 |
34 |
理解 |
35 |
空虛 |
36 |
熱情 |
37 |
消遣 |
38 |
歸屬感 |
39 |
意義 |
40 |
維持 |
41 |
創造力 |
42 |
無聊 |
準確率報告
標籤 |
精確率 |
召回率 |
F1分數 |
0 |
0.8625 |
0.7969 |
0.8284 |
1 |
0.9128 |
0.9558 |
0.9338 |
2 |
0.9028 |
0.8749 |
0.8886 |
3 |
0.8570 |
0.8639 |
0.8605 |
4 |
0.8584 |
0.8449 |
0.8516 |
5 |
0.9343 |
0.9667 |
0.9502 |
6 |
0.9492 |
0.9696 |
0.9593 |
7 |
0.9234 |
0.9462 |
0.9347 |
8 |
0.9644 |
0.9924 |
0.9782 |
9 |
0.9481 |
0.9377 |
0.9428 |
10 |
0.9250 |
0.9267 |
0.9259 |
11 |
0.9653 |
0.9914 |
0.9782 |
12 |
0.9948 |
0.9976 |
0.9962 |
13 |
0.9474 |
0.9676 |
0.9574 |
14 |
0.8926 |
0.8853 |
0.8889 |
15 |
0.9501 |
0.9515 |
0.9508 |
16 |
0.9976 |
0.9990 |
0.9983 |
17 |
0.9114 |
0.8716 |
0.8911 |
18 |
0.7825 |
0.7821 |
0.7823 |
19 |
0.9962 |
0.9990 |
0.9976 |
20 |
0.9516 |
0.9638 |
0.9577 |
21 |
0.9953 |
0.9995 |
0.9974 |
22 |
0.9630 |
0.9791 |
0.9710 |
23 |
0.9134 |
0.9134 |
0.9134 |
24 |
0.9753 |
0.9948 |
0.9849 |
25 |
0.7374 |
0.7469 |
0.7421 |
26 |
0.7864 |
0.7583 |
0.7721 |
27 |
0.6000 |
0.5666 |
0.5828 |
28 |
0.7369 |
0.6836 |
0.7093 |
29 |
0.8066 |
0.7222 |
0.7620 |
30 |
0.9116 |
0.9225 |
0.9170 |
31 |
0.9108 |
0.9524 |
0.9312 |
32 |
0.9611 |
0.9634 |
0.9622 |
33 |
0.9592 |
0.9724 |
0.9657 |
34 |
0.9700 |
0.9686 |
0.9693 |
35 |
0.9459 |
0.9734 |
0.9594 |
36 |
0.9359 |
0.9857 |
0.9601 |
37 |
0.9986 |
0.9986 |
0.9986 |
38 |
0.9943 |
0.9990 |
0.9967 |
39 |
0.9990 |
1.0000 |
0.9995 |
40 |
0.9905 |
0.9914 |
0.9910 |
41 |
0.9981 |
0.9948 |
0.9964 |
42 |
0.9929 |
0.9986 |
0.9957 |
加權平均 |
0.9188 |
0.9202 |
0.9193 |
侷限性和偏差
⚠️ 重要提示
- 模型在不同情感類別上的性能可能會有顯著差異,尤其是在訓練數據中代表性較少的類別。
- 用戶應謹慎對待訓練數據中可能存在的偏差,這些偏差可能會反映在模型的預測中。
聯繫信息
如果你有任何問題、反饋或想報告模型的任何問題,請隨時聯繫:
📄 許可證
本模型採用MIT許可證。