🚀 用於韓語情感分類的KoELECTRA微調模型
本模型通過對KoELECTRA進行微調,專門用於韓語情感分類。它能夠精準識別六種主要情感,包括憤怒、幸福、焦慮、尷尬、悲傷和心痛,為韓語情感分析提供了強大的支持。
🚀 快速開始
本模型可通過以下兩種方式輕鬆使用:
使用Transformers庫
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "Jinuuuu/KoELECTRA_fine_tunning_emotion"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
def analyze_emotion(text):
inputs = tokenizer(
text,
return_tensors="pt",
truncation=True,
max_length=512,
padding=True
)
with torch.no_grad():
outputs = model(**inputs)
probs = torch.softmax(outputs.logits, dim=1)
emotion_labels = ['angry', 'anxious', 'embarrassed', 'happy', 'heartache', 'sad']
emotion_probs = {}
for i, label in enumerate(emotion_labels):
emotion_probs[label] = float(probs[0][i])
return emotion_probs
text = "오늘은 정말 행복한 하루였다."
result = analyze_emotion(text)
print("情感分析結果:")
for emotion, prob in sorted(result.items(), key=lambda x: x[1], reverse=True):
print(f"{emotion}: {prob:.3f}")
使用Pipeline
from transformers import pipeline
classifier = pipeline(
"text-classification",
model="Jinuuuu/KoELECTRA_fine_tunning_emotion",
tokenizer="Jinuuuu/KoELECTRA_fine_tunning_emotion"
)
texts = [
"오늘은 정말 행복한 하루였다.",
"너무 화가 나서 참을 수 없다.",
"내일 시험이 걱정된다."
]
results = classifier(texts)
for text, result in zip(texts, results):
print(f"文本: {text}")
print(f"情感: {result['label']} (概率: {result['score']:.3f})")
print()
✨ 主要特性
- 精準分類:能夠準確識別六種主要的韓語情感,包括憤怒、幸福、焦慮、尷尬、悲傷和心痛。
- 多方式使用:支持通過Transformers庫和Pipeline兩種方式調用,方便不同場景的使用。
- 廣泛應用:可應用於社交媒體情感分析、客戶評論分析、聊天機器人情感識別等多個領域。
📦 安裝指南
文檔未提及具體安裝命令,可參考transformers
庫的官方安裝指南進行安裝。
📚 詳細文檔
模型描述
此模型是針對韓語情感分類對KoELECTRA進行微調得到的。它可以對六種主要情感(憤怒、幸福、焦慮、尷尬、悲傷、心痛)進行分類。
- 基礎模型:KoELECTRA (Korean ELECTRA)
- 任務類型:多類別情感分類
- 支持語言:韓語
- 許可證:MIT
情感標籤
模型可以對以下六種情感進行分類:
標籤 |
韓語 |
描述 |
angry |
憤怒 |
生氣、煩躁、憤慨 |
happy |
幸福 |
喜悅、快樂、滿足 |
anxious |
焦慮 |
擔憂、操心、恐懼 |
embarrassed |
尷尬 |
驚訝、混亂、不知所措 |
sad |
悲傷 |
憂鬱、哀傷、沮喪 |
heartache |
心痛 |
內心痛苦、背叛感、失望 |
模型架構
- 基礎模型:KoELECTRA-base
- 模型類型:序列分類
- 隱藏層大小:768
- 注意力頭數量:12
- 隱藏層數量:12
- 最大序列長度:512
- 詞彙表大小:35000
- 標籤數量:6
訓練詳情
訓練數據
- 數據集:自定義韓語情感數據集
- 訓練樣本:約50,000個句子
- 驗證樣本:約10,000個句子
- 數據來源:韓語社交媒體帖子、評論和文學作品
訓練超參數
- 學習率:2e-5
- 批次大小:16
- 訓練輪數:3 - 5
- 熱身步數:500
- 權重衰減:0.01
- 最大序列長度:512
訓練環境
- 框架:PyTorch + Transformers
- 硬件:支持CUDA的GPU
- 優化器:AdamW
性能指標
指標 |
得分 |
準確率 |
0.85+ |
F1分數(宏平均) |
0.83+ |
F1分數(加權平均) |
0.85+ |
各類別性能
情感 |
精確率 |
召回率 |
F1分數 |
憤怒 |
0.87 |
0.84 |
0.85 |
幸福 |
0.89 |
0.91 |
0.90 |
焦慮 |
0.82 |
0.79 |
0.80 |
尷尬 |
0.78 |
0.76 |
0.77 |
悲傷 |
0.85 |
0.87 |
0.86 |
心痛 |
0.81 |
0.83 |
0.82 |
應用場景
該模型可用於以下場景:
- 社交媒體情感分析:瞭解帖子和評論中的情感傾向。
- 客戶評論分析:對產品或服務評論進行情感分類。
- 聊天機器人情感識別:在對話系統中識別用戶的情感。
- 內容推薦:基於情感的內容推薦系統。
- 音樂推薦:根據文本情感推薦音樂。
- 文學分析:分析小說、詩歌等文學作品中的情感。
侷限性
- 語言限制:模型針對韓語文本進行了優化。
- 長度限制:最多可處理512個標記。
- 準確性波動:情感分類的準確性可能會因上下文而異。
- 特定表達性能:對俚語、新造詞和方言的處理性能可能有限。
偏差與公平性
此模型可能會反映訓練數據中的偏差。在實際服務中應用時,可能會對特定主題或表達方式產生偏差結果,因此需要進行充分的驗證和監控。
引用格式
@misc{koelectra_emotion_2024,
title={KoELECTRA Fine-tuned for Korean Emotion Classification},
author={Jinuuuu},
year={2024},
publisher={Hugging Face},
howpublished={\url{https://huggingface.co/Jinuuuu/KoELECTRA_fine_tunning_emotion}}
}
模型卡片作者
- 開發者:Jinuuuu
- 模型類型:文本分類
- 支持語言:韓語
- 許可證:MIT
聯繫方式
如果您對模型有任何疑問或改進建議,請通過GitHub問題或Hugging Face模型頁面與我們聯繫。
重要提示
本模型是為研究和教育目的而開發的。在商業使用時,請進行充分的驗證和測試。