ast-finetuned-model開源音頻模型 - 免費部署精準實現語音情感分類

首頁

Ast Finetuned Model

由forwarder1121開發

這是一個基於音頻頻譜圖變壓器（AST）的微調模型，專門用於語音音頻中的情感分類。

音頻分類

Transformers

英語開源協議:Apache-2.0 #語音情感識別 #頻譜圖分析 #多情感分類

下載量 174

發布時間 : 11/17/2024

模型概述

該模型在CREMA-D數據集上進行了微調，專注於六種情感類別（憤怒、厭惡、恐懼、快樂、中性、悲傷），適用於語音情感識別任務。

模型特點

基於音頻頻譜圖變壓器

採用先進的音頻頻譜圖變壓器架構，能夠有效捕捉語音中的情感特徵。

六種情感分類

支持憤怒、厭惡、恐懼、快樂、中性和悲傷六種情感類別的識別。

數據增強

訓練過程中使用了噪聲注入、時間偏移和速度擾動等數據增強技術，提升模型魯棒性。

模型能力

語音情感識別

音頻分類

情感分析

使用案例

人機交互

智能客服情感分析

用於分析用戶在客服通話中的情感狀態，提升服務質量。

心理健康

情緒狀態監測

通過語音分析用戶的情緒變化，用於心理健康應用。

🚀 AST情感分類微調模型

這是一個經過微調的音頻頻譜圖Transformer（AST）模型，專門用於對語音音頻中的情感進行分類。該模型在CREMA - D數據集上進行了微調，聚焦於六種情感類別。基礎模型源自麻省理工學院（MIT）預訓練的AST模型。

🚀 快速開始

加載模型

from transformers import AutoModelForAudioClassification, AutoProcessor

# 加載模型和處理器
model = AutoModelForAudioClassification.from_pretrained("forwarder1121/ast-finetuned-model")
processor = AutoProcessor.from_pretrained("forwarder1121/ast-finetuned-model")

# 將輸入音頻（例如波形）轉換為對數梅爾頻譜圖
inputs = processor("path_to_audio.wav", sampling_rate=16000, return_tensors="pt")

# 進行預測
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()

print(f"預測的情感: {model.config.id2label[str(predicted_class)]}")

✨ 主要特性

針對語音音頻情感分類進行微調。
基於MIT預訓練的AST模型，在CREMA - D數據集上微調。
支持六種常見情感類別的分類。

📦 安裝指南

原文檔未提供安裝步驟，此部分跳過。

📚 詳細文檔

模型詳情

屬性	詳情
基礎模型	`MIT/ast-finetuned-audioset-10-10-0.4593`
微調數據集	CREMA - D
架構	音頻頻譜圖Transformer（AST）
模型類型	單標籤分類
輸入特徵	對數梅爾頻譜圖（128個梅爾頻段）
輸出類別	憤怒（ANG）、厭惡（DIS）、恐懼（FEA）、快樂（HAP）、中性（NEU）、悲傷（SAD）

模型配置

屬性	詳情
隱藏層大小	768
注意力頭數量	12
隱藏層數量	12
補丁大小	16
最大長度	1024
丟棄概率	0.0
激活函數	GELU（高斯誤差線性單元）
優化器	Adam
學習率	1e - 4

訓練詳情

數據集：CREMA - D（情感標註的語音數據）
數據增強：
- 噪聲注入
- 時間偏移
- 速度擾動
微調輪數：5
批次大小：16
學習率調度器：線性衰減
最佳驗證準確率：60.71%
最佳檢查點：./results/checkpoint-1119

評估指標

驗證結果

最佳驗證準確率：60.71%
驗證損失：1.1126

評估詳情

評估數據集：CREMA - D測試集
批次大小：16
步數：94

🔧 技術細節

原文檔未提供足夠詳細的技術實現細節，此部分跳過。

📄 許可證

該模型遵循MIT許可證。請參考倉庫中的許可詳情。

🔖 引用

如果您在工作中使用了此模型，請引用：

@misc{ast-finetuned-model,
  author = {forwarder1121},
  title = {Fine-Tuned Audio Spectrogram Transformer for Emotion Classification},
  year = {2024},
  url = {https://huggingface.co/forwarder1121/ast-finetuned-model},
}