モデル選定

音声感情認識

# 音声感情認識

Whisper Large V3 Msp Podcast Emotion

Whisper-Large V3を基にした音声感情認識モデルで、MSP-Podcastデータセットに最適化されており、9種類の感情分類をサポート

Safetensors 英語

Ast Finetuned Model

これはオーディオスペクトログラムトランスフォーマー（AST）ベースのファインチューニングモデルで、音声オーディオの感情分類に特化しています。

Transformers 英語

Wavlm Large Finetuned SER

WavLM-Largeベースの音声感情認識モデルで、英語音声の感情分類をサポートします。

音声分類英語

Speech Emotion Recognition With Openai Whisper Large V3

本プロジェクトではWhisperモデルを利用して音声感情認識を実現し、音声を喜び、悲しみ、驚きなどの異なる感情カテゴリに分類することができます。

Speechbrain Emotion Recognition Openvino

このモデルはファインチューニングされたwav2vec2（ベース）アーキテクチャを使用し、IEMOCAPデータセットでトレーニングされ、音声感情認識タスクに用いられます。

音声分類英語

SER Odyssey Baseline WavLM Categorical

WavLMアーキテクチャに基づく音声感情認識のベースラインモデル、8つの基本感情カテゴリを予測

Transformers 英語

Speech Emotion Recognition Wav2vec2 Large Xlsr 53 240304 SER Fine Tuned2.0

wav2vec2-large-xlsr-53ベースの音声感情認識モデル、7種類の感情分類に対応

Wav2vec2 Large Xlsr 53 English Finetuned Ravdess

wav2vec2-large-xlsr-53-englishモデルをRAVDESSデータセットでファインチューニングした音声感情認識モデル

Wav2vec2 Audio Emotion Classification

facebook/wav2vec2-baseを微調整した音声感情分類モデルで、音声中の感情状態を分析するために使用されます

Wav2vec2 Audio Emotion Classification

facebook/wav2vec2-baseをファインチューニングした音声感情分類モデルで、評価セットで73.98%の精度を達成

Wav2vec2 Lg Xlsr En Speech Emotion Recognition Finetuned Ravdess V8

wav2vec2アーキテクチャに基づく英語音声感情認識モデル、RAVDESSデータセットで微調整

Emotion Diarization Wavlm Large

WavLM Largeモデルをファインチューニングし、音声感情認識と話者ログ分析に使用され、複数の感情分類をサポート

音声分類英語

Distilhubert Finetuned Ravdess

DistilHuBERTアーキテクチャを基にRAVDESS音声感情データセットでファインチューニングされた音声感情認識モデル、精度92.36%

Finetuned Wav2vec2.0 Base On IEMOCAP 2

これはfacebook/wav2vec2-baseモデルをIEMOCAPデータセットでファインチューニングした音声感情認識モデルで、評価セットで73.9%の精度を達成しました。

facebook/wav2vec2-baseをファインチューニングした音声感情認識モデルで、評価データセットで73.22%の精度を達成

Wav2vec2 Base Toronto Emotional Speech Set

wav2vec2-baseを微調整した音声感情分類モデルで、話者の感情状態を識別するために使用されます。

Transformers 英語

Astie Finetuned On Shemo

このモデルはshEMOデータセットでASTモデルをファインチューニングしたバージョンで、主に音声感情認識タスクに使用されます。

Iewav2vec2 Finetuned On Shemo

このモデルはminoosh/wav2vec2-base-finetuned-ieをshEMOデータセットでファインチューニングしたバージョンで、主に音声感情認識タスクに使用されます。

Ser Model Adjusted 2023 03 03

facebook/wav2vec2-baseをファインチューニングした音声感情認識モデルで、評価セットで75.73%の精度を達成

Ser Model Fixed Label

facebook/wav2vec2-baseをファインチューニングした音声感情認識モデルで、評価データセットで83.67%の精度を達成

facebook/wav2vec2-baseをファインチューニングした音声感情認識モデルで、評価データセットで84.71%の精度を達成

Wav2vec2 Base Finetuned Sentiment Mesd

facebook/wav2vec2-baseをMESDデータセットでファインチューニングしたスペイン語オーディオ感情分類モデル

somosnlp-hackathon-2022

Xlsr Wav2vec Speech Emotion Recognition

XLSR-Wav2Vecアーキテクチャに基づく音声感情認識モデルで、怒り、嫌悪、恐怖、喜び、悲しみの5つの基本的な感情を認識できます。

Transformers 英語

Wav2vec2 Base Superb Er

これはWav2Vec2アーキテクチャに基づく音声感情認識モデルで、S3PRLプロジェクトから移植され、音声中の感情カテゴリを識別します。

Transformers 英語

Wav2vec2 Lg Xlsr En Speech Emotion Recognition

Wav2Vec 2.0をファインチューニングした音声感情認識モデルで、8種類の英語感情を識別可能、RAVDESSデータセットで82.23%の精度を達成

Wav2vec2 Large Superb Er

これはWav2Vec2-Largeモデルに基づく感情認識モデルで、音声から感情カテゴリーを識別するために特別に設計されています。

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase