ast-finetuned-modelオープンソースオーディオモデル - 無料でデプロイし、音声感情分類を高精度で実現

ホーム

Ast Finetuned Model

forwarder1121によって開発

これはオーディオスペクトログラムトランスフォーマー（AST）ベースのファインチューニングモデルで、音声オーディオの感情分類に特化しています。

音声分類

Transformers

英語オープンソースライセンス:Apache-2.0 #音声感情認識 #スペクトログラム分析 #多感情分類

ダウンロード数 174

リリース時間 : 11/17/2024

モデル概要

このモデルはCREMA-Dデータセットでファインチューニングされ、6つの感情カテゴリー（怒り、嫌悪、恐怖、幸福、中立、悲しみ）に焦点を当てており、音声感情認識タスクに適しています。

モデル特徴

オーディオスペクトログラムトランスフォーマーベース

先進的なオーディオスペクトログラムトランスフォーマーアーキテクチャを採用し、音声中の感情特徴を効果的に捉えることができます。

6つの感情分類

怒り、嫌悪、恐怖、幸福、中立、悲しみの6つの感情カテゴリーの識別をサポートします。

データ拡張

トレーニングプロセスではノイズ注入、時間シフト、速度摂動などのデータ拡張技術を使用し、モデルの堅牢性を向上させました。

モデル能力

音声感情認識

オーディオ分類

感情分析

使用事例

人間とコンピュータの相互作用

インテリジェントカスタマーサポートの感情分析

カスタマーサポート通話中のユーザーの感情状態を分析し、サービス品質を向上させるために使用されます。

メンタルヘルス

感情状態モニタリング

音声分析を通じてユーザーの感情変化を監視し、メンタルヘルスアプリケーションに使用されます。

🚀 AST感情分類用ファインチューニング済みモデル

このモデルは、音声の感情分類に特化してファインチューニングされた音声スペクトログラムトランスフォーマー（AST）モデルです。CREMA - Dデータセットを使用して6つの感情カテゴリに焦点を当ててファインチューニングされており、ベースモデルはMITの事前学習済みASTモデルを使用しています。

🚀 クイックスタート

このモデルは、音声の感情分類に使用できます。以下のコードを参考に、モデルを読み込み、予測を行うことができます。

💻 使用例

基本的な使用法

from transformers import AutoModelForAudioClassification, AutoProcessor

# モデルとプロセッサを読み込む
model = AutoModelForAudioClassification.from_pretrained("forwarder1121/ast-finetuned-model")
processor = AutoProcessor.from_pretrained("forwarder1121/ast-finetuned-model")

# 入力音声（例：波形）をログメルスペクトログラムとして準備する
inputs = processor("path_to_audio.wav", sampling_rate=16000, return_tensors="pt")

# 予測を行う
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()

print(f"予測された感情: {model.config.id2label[str(predicted_class)]}")

📚 ドキュメント

🔍 モデルの詳細

属性	详情
ベースモデル	`MIT/ast-finetuned-audioset-10-10-0.4593`
ファインチューニングデータセット	CREMA - D
アーキテクチャ	音声スペクトログラムトランスフォーマー（AST）
モデルタイプ	単一ラベル分類
入力特徴量	ログメルスペクトログラム（128メルビン）
出力クラス	ANG: 怒り DIS: 嫌悪 FEA: 恐怖 HAP: 幸福 NEU: 中立 SAD: 悲しみ

⚙️ モデルの設定

属性	详情
隠れ層のサイズ	768
アテンションヘッドの数	12
隠れ層の数	12
パッチサイズ	16
最大長	1024
ドロップアウト確率	0.0
活性化関数	GELU（ガウス誤差線形ユニット）
オプティマイザ	Adam
学習率	1e - 4

📈 トレーニングの詳細

データセット: CREMA - D（感情ラベル付き音声データ）
データ拡張:
- ノイズ注入
- 時間シフト
- 速度摂動
ファインチューニングエポック数: 5
バッチサイズ: 16
学習率スケジューラ: 線形減衰
最高検証精度: 60.71%
最良チェックポイント: ./results/checkpoint - 1119

📊 評価指標

検証結果

最高検証精度: 60.71%
検証損失: 1.1126

評価の詳細

評価データセット: CREMA - Dのテスト分割
バッチサイズ: 16
ステップ数: 94

⚠️ 制限事項

このモデルはCREMA - Dデータセットでトレーニングされており、特定の音声データセットに特化しています。異なるアクセント、話し方、または言語のデータセットに対しては汎化性能が低い可能性があります。
検証精度が60.71%であることから、実世界でのデプロイには改善の余地があります。

🙏 謝辞

この研究は、MITによる音声スペクトログラムトランスフォーマー（AST） モデルをベースに、感情分類のためにファインチューニングされています。Hugging Faceの開発者とCREMA - Dデータセットの貢献者に感謝します。

📄 ライセンス

このモデルはMITライセンスの下で共有されています。リポジトリ内のライセンス詳細を参照してください。

📝 引用

このモデルをあなたの研究で使用する場合は、以下のように引用してください。

@misc{ast-finetuned-model,
  author = {forwarder1121},
  title = {Fine-Tuned Audio Spectrogram Transformer for Emotion Classification},
  year = {2024},
  url = {https://huggingface.co/forwarder1121/ast-finetuned-model},
}