🚀 AST情感分类微调模型
这是一个经过微调的音频频谱图Transformer(AST)模型,专门用于对语音音频中的情感进行分类。该模型在CREMA - D数据集上进行了微调,聚焦于六种情感类别。基础模型源自麻省理工学院(MIT)预训练的AST模型。
🚀 快速开始
加载模型
from transformers import AutoModelForAudioClassification, AutoProcessor
model = AutoModelForAudioClassification.from_pretrained("forwarder1121/ast-finetuned-model")
processor = AutoProcessor.from_pretrained("forwarder1121/ast-finetuned-model")
inputs = processor("path_to_audio.wav", sampling_rate=16000, return_tensors="pt")
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()
print(f"预测的情感: {model.config.id2label[str(predicted_class)]}")
✨ 主要特性
- 针对语音音频情感分类进行微调。
- 基于MIT预训练的AST模型,在CREMA - D数据集上微调。
- 支持六种常见情感类别的分类。
📦 安装指南
原文档未提供安装步骤,此部分跳过。
📚 详细文档
模型详情
属性 |
详情 |
基础模型 |
MIT/ast-finetuned-audioset-10-10-0.4593 |
微调数据集 |
CREMA - D |
架构 |
音频频谱图Transformer(AST) |
模型类型 |
单标签分类 |
输入特征 |
对数梅尔频谱图(128个梅尔频段) |
输出类别 |
愤怒(ANG)、厌恶(DIS)、恐惧(FEA)、快乐(HAP)、中性(NEU)、悲伤(SAD) |
模型配置
属性 |
详情 |
隐藏层大小 |
768 |
注意力头数量 |
12 |
隐藏层数量 |
12 |
补丁大小 |
16 |
最大长度 |
1024 |
丢弃概率 |
0.0 |
激活函数 |
GELU(高斯误差线性单元) |
优化器 |
Adam |
学习率 |
1e - 4 |
训练详情
- 数据集:CREMA - D(情感标注的语音数据)
- 数据增强:
- 微调轮数:5
- 批次大小:16
- 学习率调度器:线性衰减
- 最佳验证准确率:60.71%
- 最佳检查点:
./results/checkpoint-1119
评估指标
验证结果
- 最佳验证准确率:60.71%
- 验证损失:1.1126
评估详情
- 评估数据集:CREMA - D测试集
- 批次大小:16
- 步数:94
🔧 技术细节
原文档未提供足够详细的技术实现细节,此部分跳过。
📄 许可证
该模型遵循MIT许可证。请参考仓库中的许可详情。
🔖 引用
如果您在工作中使用了此模型,请引用:
@misc{ast-finetuned-model,
author = {forwarder1121},
title = {Fine-Tuned Audio Spectrogram Transformer for Emotion Classification},
year = {2024},
url = {https://huggingface.co/forwarder1121/ast-finetuned-model},
}
📞 联系信息
如有疑问,请联系 forwarder1121@naver.com
。
⚠️ 重要提示
- 该模型在CREMA - D数据集上进行训练,该数据集具有特定的语音数据。它可能无法很好地泛化到具有不同口音、语音风格或语言的数据集。
- 验证准确率为60.71%,表明在实际应用中还有改进的空间。