🚀 用于韩语情感分类的KoELECTRA微调模型
本模型通过对KoELECTRA进行微调,专门用于韩语情感分类。它能够精准识别六种主要情感,包括愤怒、幸福、焦虑、尴尬、悲伤和心痛,为韩语情感分析提供了强大的支持。
🚀 快速开始
本模型可通过以下两种方式轻松使用:
使用Transformers库
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "Jinuuuu/KoELECTRA_fine_tunning_emotion"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
def analyze_emotion(text):
inputs = tokenizer(
text,
return_tensors="pt",
truncation=True,
max_length=512,
padding=True
)
with torch.no_grad():
outputs = model(**inputs)
probs = torch.softmax(outputs.logits, dim=1)
emotion_labels = ['angry', 'anxious', 'embarrassed', 'happy', 'heartache', 'sad']
emotion_probs = {}
for i, label in enumerate(emotion_labels):
emotion_probs[label] = float(probs[0][i])
return emotion_probs
text = "오늘은 정말 행복한 하루였다."
result = analyze_emotion(text)
print("情感分析结果:")
for emotion, prob in sorted(result.items(), key=lambda x: x[1], reverse=True):
print(f"{emotion}: {prob:.3f}")
使用Pipeline
from transformers import pipeline
classifier = pipeline(
"text-classification",
model="Jinuuuu/KoELECTRA_fine_tunning_emotion",
tokenizer="Jinuuuu/KoELECTRA_fine_tunning_emotion"
)
texts = [
"오늘은 정말 행복한 하루였다.",
"너무 화가 나서 참을 수 없다.",
"내일 시험이 걱정된다."
]
results = classifier(texts)
for text, result in zip(texts, results):
print(f"文本: {text}")
print(f"情感: {result['label']} (概率: {result['score']:.3f})")
print()
✨ 主要特性
- 精准分类:能够准确识别六种主要的韩语情感,包括愤怒、幸福、焦虑、尴尬、悲伤和心痛。
- 多方式使用:支持通过Transformers库和Pipeline两种方式调用,方便不同场景的使用。
- 广泛应用:可应用于社交媒体情感分析、客户评论分析、聊天机器人情感识别等多个领域。
📦 安装指南
文档未提及具体安装命令,可参考transformers
库的官方安装指南进行安装。
📚 详细文档
模型描述
此模型是针对韩语情感分类对KoELECTRA进行微调得到的。它可以对六种主要情感(愤怒、幸福、焦虑、尴尬、悲伤、心痛)进行分类。
- 基础模型:KoELECTRA (Korean ELECTRA)
- 任务类型:多类别情感分类
- 支持语言:韩语
- 许可证:MIT
情感标签
模型可以对以下六种情感进行分类:
标签 |
韩语 |
描述 |
angry |
愤怒 |
生气、烦躁、愤慨 |
happy |
幸福 |
喜悦、快乐、满足 |
anxious |
焦虑 |
担忧、操心、恐惧 |
embarrassed |
尴尬 |
惊讶、混乱、不知所措 |
sad |
悲伤 |
忧郁、哀伤、沮丧 |
heartache |
心痛 |
内心痛苦、背叛感、失望 |
模型架构
- 基础模型:KoELECTRA-base
- 模型类型:序列分类
- 隐藏层大小:768
- 注意力头数量:12
- 隐藏层数量:12
- 最大序列长度:512
- 词汇表大小:35000
- 标签数量:6
训练详情
训练数据
- 数据集:自定义韩语情感数据集
- 训练样本:约50,000个句子
- 验证样本:约10,000个句子
- 数据来源:韩语社交媒体帖子、评论和文学作品
训练超参数
- 学习率:2e-5
- 批次大小:16
- 训练轮数:3 - 5
- 热身步数:500
- 权重衰减:0.01
- 最大序列长度:512
训练环境
- 框架:PyTorch + Transformers
- 硬件:支持CUDA的GPU
- 优化器:AdamW
性能指标
指标 |
得分 |
准确率 |
0.85+ |
F1分数(宏平均) |
0.83+ |
F1分数(加权平均) |
0.85+ |
各类别性能
情感 |
精确率 |
召回率 |
F1分数 |
愤怒 |
0.87 |
0.84 |
0.85 |
幸福 |
0.89 |
0.91 |
0.90 |
焦虑 |
0.82 |
0.79 |
0.80 |
尴尬 |
0.78 |
0.76 |
0.77 |
悲伤 |
0.85 |
0.87 |
0.86 |
心痛 |
0.81 |
0.83 |
0.82 |
应用场景
该模型可用于以下场景:
- 社交媒体情感分析:了解帖子和评论中的情感倾向。
- 客户评论分析:对产品或服务评论进行情感分类。
- 聊天机器人情感识别:在对话系统中识别用户的情感。
- 内容推荐:基于情感的内容推荐系统。
- 音乐推荐:根据文本情感推荐音乐。
- 文学分析:分析小说、诗歌等文学作品中的情感。
局限性
- 语言限制:模型针对韩语文本进行了优化。
- 长度限制:最多可处理512个标记。
- 准确性波动:情感分类的准确性可能会因上下文而异。
- 特定表达性能:对俚语、新造词和方言的处理性能可能有限。
偏差与公平性
此模型可能会反映训练数据中的偏差。在实际服务中应用时,可能会对特定主题或表达方式产生偏差结果,因此需要进行充分的验证和监控。
引用格式
@misc{koelectra_emotion_2024,
title={KoELECTRA Fine-tuned for Korean Emotion Classification},
author={Jinuuuu},
year={2024},
publisher={Hugging Face},
howpublished={\url{https://huggingface.co/Jinuuuu/KoELECTRA_fine_tunning_emotion}}
}
模型卡片作者
- 开发者:Jinuuuu
- 模型类型:文本分类
- 支持语言:韩语
- 许可证:MIT
联系方式
如果您对模型有任何疑问或改进建议,请通过GitHub问题或Hugging Face模型页面与我们联系。
重要提示
本模型是为研究和教育目的而开发的。在商业使用时,请进行充分的验证和测试。