🚀 AST情感分類微調模型
這是一個經過微調的音頻頻譜圖Transformer(AST)模型,專門用於對語音音頻中的情感進行分類。該模型在CREMA - D數據集上進行了微調,聚焦於六種情感類別。基礎模型源自麻省理工學院(MIT)預訓練的AST模型。
🚀 快速開始
加載模型
from transformers import AutoModelForAudioClassification, AutoProcessor
model = AutoModelForAudioClassification.from_pretrained("forwarder1121/ast-finetuned-model")
processor = AutoProcessor.from_pretrained("forwarder1121/ast-finetuned-model")
inputs = processor("path_to_audio.wav", sampling_rate=16000, return_tensors="pt")
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()
print(f"預測的情感: {model.config.id2label[str(predicted_class)]}")
✨ 主要特性
- 針對語音音頻情感分類進行微調。
- 基於MIT預訓練的AST模型,在CREMA - D數據集上微調。
- 支持六種常見情感類別的分類。
📦 安裝指南
原文檔未提供安裝步驟,此部分跳過。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
基礎模型 |
MIT/ast-finetuned-audioset-10-10-0.4593 |
微調數據集 |
CREMA - D |
架構 |
音頻頻譜圖Transformer(AST) |
模型類型 |
單標籤分類 |
輸入特徵 |
對數梅爾頻譜圖(128個梅爾頻段) |
輸出類別 |
憤怒(ANG)、厭惡(DIS)、恐懼(FEA)、快樂(HAP)、中性(NEU)、悲傷(SAD) |
模型配置
屬性 |
詳情 |
隱藏層大小 |
768 |
注意力頭數量 |
12 |
隱藏層數量 |
12 |
補丁大小 |
16 |
最大長度 |
1024 |
丟棄概率 |
0.0 |
激活函數 |
GELU(高斯誤差線性單元) |
優化器 |
Adam |
學習率 |
1e - 4 |
訓練詳情
- 數據集:CREMA - D(情感標註的語音數據)
- 數據增強:
- 微調輪數:5
- 批次大小:16
- 學習率調度器:線性衰減
- 最佳驗證準確率:60.71%
- 最佳檢查點:
./results/checkpoint-1119
評估指標
驗證結果
- 最佳驗證準確率:60.71%
- 驗證損失:1.1126
評估詳情
- 評估數據集:CREMA - D測試集
- 批次大小:16
- 步數:94
🔧 技術細節
原文檔未提供足夠詳細的技術實現細節,此部分跳過。
📄 許可證
該模型遵循MIT許可證。請參考倉庫中的許可詳情。
🔖 引用
如果您在工作中使用了此模型,請引用:
@misc{ast-finetuned-model,
author = {forwarder1121},
title = {Fine-Tuned Audio Spectrogram Transformer for Emotion Classification},
year = {2024},
url = {https://huggingface.co/forwarder1121/ast-finetuned-model},
}
📞 聯繫信息
如有疑問,請聯繫 forwarder1121@naver.com
。
⚠️ 重要提示
- 該模型在CREMA - D數據集上進行訓練,該數據集具有特定的語音數據。它可能無法很好地泛化到具有不同口音、語音風格或語言的數據集。
- 驗證準確率為60.71%,表明在實際應用中還有改進的空間。