2025年最高の 347 個の音声分類ツール

Mms Lid 126
Facebookの大規模多言語音声プロジェクトを基にファインチューニングした言語識別モデルで、126言語の音声分類をサポート
音声分類 Transformers 複数言語対応
M
facebook
2.1M
26
Wav2vec2 Base Finetuned Speech Commands V0.02
Apache-2.0
このモデルはfacebook/wav2vec2-baseをspeech_commandsデータセットでファインチューニングした音声コマンド認識モデルで、精度は97.59%です。
音声分類 Transformers
W
0xb1
1.2M
0
Whisper Medium Fleurs Lang Id
Apache-2.0
OpenAI Whisper-mediumをファインチューニングした音声言語識別モデルで、FLEURSデータセットで88.05%の精度を達成
音声分類 Transformers
W
sanchit-gandhi
590.30k
14
Wav2vec2 Large Robust 12 Ft Emotion Msp Dim
このモデルはWav2Vec2-Large-Robustをファインチューニングして訓練され、音声感情認識に使用され、覚醒度、支配度、価値の3つの次元の予測値を出力します。
音声分類 Transformers 英語
W
audeering
394.51k
109
Lang Id Voxlingua107 Ecapa
Apache-2.0
SpeechBrainフレームワークとECAPA-TDNNアーキテクチャに基づく音声言語識別モデルで、107言語の識別と音声埋め込みベクトル抽出をサポートします。
音声分類 複数言語対応
L
speechbrain
330.01k
112
Ast Finetuned Audioset 10 10 0.4593
Bsd-3-clause
オーディオスペクトログラムトランスフォーマー(AST)はAudioSetでファインチューニングされたモデルで、オーディオをスペクトログラムに変換後、ビジョントランスフォーマーを適用してオーディオ分類を行います。
音声分類 Transformers
A
MIT
308.88k
311
Whisper Small Ft Common Language Id
Apache-2.0
openai/whisper-smallをファインチューニングした汎用言語識別モデルで、評価データセットでの精度は88.6%
音声分類 Transformers
W
sanchit-gandhi
256.20k
2
Emotion Recognition Wav2vec2 IEMOCAP
Apache-2.0
ファインチューニングされたwav2vec2モデルを使用した音声感情認識で、IEMOCAPデータセットでトレーニング
音声分類 英語
E
speechbrain
237.65k
131
Ast Finetuned Audioset 14 14 0.443
Bsd-3-clause
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、音声をスペクトログラムに変換後、ビジョントランスフォーマーアーキテクチャで処理し、音声分類タスクで優れた性能を発揮します。
音声分類 Transformers
A
MIT
194.20k
5
Wav2vec2 Large Xlsr 53 Gender Recognition Librispeech
Apache-2.0
Librispeech-clean-100データセットで微調整された性別認識モデルで、テストセットでF1スコア0.9993を達成
音声分類 Transformers
W
alefiury
182.33k
42
Wav2vec English Speech Emotion Recognition
Apache-2.0
Wav2Vec 2.0をファインチューニングした英語音声感情認識モデルで、7種類の異なる感情を識別可能
音声分類 Transformers
W
r-f
139.06k
19
Hubert Large Speech Emotion Recognition Russian Dusha Finetuned
Apache-2.0
このモデルはHuBERTアーキテクチャを基にファインチューニングされたロシア語音声感情認識モデルで、DUSHAデータセットで訓練されており、中立、怒り、ポジティブ、悲しみなどの感情状態を識別できます。
音声分類 Transformers その他
H
xbgoose
111.13k
13
MERT V1 95M
MERT-v1-330M は MLM パラダイムに基づいてトレーニングされた高度な音楽理解モデルで、330M のパラメータを持ち、24K Hz のオーディオサンプリングレートと 75 Hz の特徴レートをサポートし、さまざまな音楽情報検索タスクに適しています。
音声分類 Transformers
M
m-a-p
83.72k
32
Audiobox Aesthetics
音声、音楽、サウンドの統合的な自動品質評価モデル
音声分類
A
facebook
56.27k
24
Mms Lid 256
これはWav2Vec2アーキテクチャに基づく音声言語識別モデルで、256言語を識別可能であり、Facebookの大規模多言語音声(MMS)プロジェクトの一部です。
音声分類 Transformers 複数言語対応
M
facebook
48.38k
10
Wav2vec2 Large Robust 24 Ft Age Gender
このモデルは生の音声信号を入力として、年齢予測値および性別確率(子供/女性/男性)を出力し、同時に最終層transformerのプール状態を出力します。
音声分類 Transformers
W
audeering
44.13k
33
Wav2vec2 Lg Xlsr En Speech Emotion Recognition
Apache-2.0
Wav2Vec 2.0をファインチューニングした音声感情認識モデルで、8種類の英語感情を識別可能、RAVDESSデータセットで82.23%の精度を達成
音声分類 Transformers
W
ehcalabres
39.83k
221
Wav2vec2 Base Superb Er
Apache-2.0
これはWav2Vec2アーキテクチャに基づく音声感情認識モデルで、S3PRLプロジェクトから移植され、音声中の感情カテゴリを識別します。
音声分類 Transformers 英語
W
superb
28.14k
11
SER Odyssey Baseline WavLM Multi Attributes
MIT
WavLMアーキテクチャに基づく多属性音声感情認識ベースラインモデルで、活性度、支配度、価値の3つの感情次元を予測
音声分類 Transformers 英語
S
3loi
23.09k
7
Wav2vec2 Large Robust 6 Ft Age Gender
このモデルはWav2Vec2-Large-Robustを微調整することで、生の音声から話者の年齢と性別を予測できます。
音声分類 Transformers
W
audeering
19.29k
2
MERT V1 330M
MERT-v1-330MはMLMパラダイムに基づいて訓練された高度な音楽理解モデルで、330Mのパラメータ規模を持ち、24K Hzの音声サンプリングレートをサポートし、様々な音楽情報検索タスクに適しています。
音声分類 Transformers
M
m-a-p
16.92k
65
Voice Gender Classifier
MIT
ECAPA-TDNNアーキテクチャに基づく事前学習モデルで、人間の音声から性別を分類する
音声分類 Transformers
V
JaesungHuh
14.01k
16
Voice Safety Classifier
WavLM base plusアーキテクチャに基づく音声コンテンツ安全検出モデルで、音声チャット内の有害コンテンツを識別
音声分類 Transformers
V
Roblox
11.55k
37
Hubert Base Superb Ks
Apache-2.0
このモデルはHubertアーキテクチャに基づくキーワード認識モデルで、音声フラグメントを事前定義されたキーワード集合に分類するために使用されます。
音声分類 Transformers 英語
H
superb
11.29k
8
Ast Finetuned Speech Commands V2
Bsd-3-clause
Speech Commands v2データセットでファインチューニングされた音声スペクトログラムトランスフォーマーモデルで、音声分類タスクに使用され、精度は98.12%です。
音声分類 Transformers
A
MIT
10.94k
15
Hubert Large Superb Er
Apache-2.0
Hubert-Large事前学習モデルをベースにした感情識別モデルで、音声の感情カテゴリを予測するために使用されます。
音声分類 Transformers 英語
H
superb
10.24k
21
Voxlingua107 Epaca Tdnn
Apache-2.0
VoxLingua107データセットで訓練されたECAPA-TDNNアーキテクチャの音声言語識別モデルで、107言語の識別をサポート
音声分類 その他
V
TalTechNLP
10.21k
28
AST VoxCelebSpoof Synthetic Voice Detection
MIT
MIT/ast-finetuned-audioset-10-10-0.4593を微調整した合成音声検出モデルで、VoxCelebSpoofデータセットで優れた性能を発揮
音声分類 Transformers 英語
A
MattyB95
9,518
4
Hubert Base Superb Er
Apache-2.0
このモデルはHubert-Baseアーキテクチャに基づく感情識別モデルで、SUPERB感情識別タスクで訓練され、音声感情分類に使用されます。
音声分類 Transformers 英語
H
superb
7,887
20
Speech Emotion Recognition With Openai Whisper Large V3
Apache-2.0
本プロジェクトではWhisperモデルを利用して音声感情認識を実現し、音声を喜び、悲しみ、驚きなどの異なる感情カテゴリに分類することができます。
音声分類 Transformers
S
firdhokk
7,750
33
Wav2vec2 Xlsr Persian Speech Emotion Recognition
Apache-2.0
これはWav2Vec 2.0アーキテクチャに基づくペルシャ語音声感情認識モデルで、6つの基本感情状態を識別できます。
音声分類 Transformers その他
W
m3hrdadfi
5,114
8
Voice Safety Classifier V2
WavLMアーキテクチャに基づく多言語音声毒性検出モデル、8言語をサポート、6種類の違反コンテンツを識別可能
音声分類 Transformers 複数言語対応
V
Roblox
5,073
4
Wav2vec Vm Finetune
Apache-2.0
facebook/wav2vec2-xls-r-300mをファインチューニングしたボイスメール検出モデルで、ボイスメールの挨拶と実際の応答を区別するために特別に設計されています。
音声分類 Transformers 英語
W
jakeBland
5,000
5
Wav2vecbert2 Filledpause
Apache-2.0
オーディオ中の20ミリ秒フレームを分類し、フィラー('eee'、'errm'など)の存在を判定するモデル
音声分類 Safetensors その他
W
classla
4,290
0
Wav2vec2 Base Lang Id
Apache-2.0
facebook/wav2vec2-baseをcommon_languageデータセットでファインチューニングした音声言語識別モデル
音声分類 Transformers
W
anton-l
3,470
7
Music Genres Classification
Apache-2.0
このモデルはfacebook/wav2vec2-base-960hを基に訓練され、音楽ジャンル分類タスクに使用され、10種類のジャンル識別をサポートします。
音声分類 Transformers
M
dima806
3,409
27
Ssast Small Patch Audioset 16 16
Bsd-3-clause
AudioSetとLibrispeechで事前学習された音声分類モデル、視覚変換器アーキテクチャを用いて音声スペクトログラムを処理
音声分類 Transformers
S
Simon-Kotchou
2,408
1
Accent Id Commonaccent Ecapa
MIT
このモデルはECAPA-TDNNアーキテクチャを使用して英語音声を16種類のアクセントに分類し、CommonAccentデータセットでトレーニングされ、テスト精度は87%に達しました。
音声分類 英語
A
Jzuluaga
2,291
15
Deepfake Audio Detection V2
Apache-2.0
音声フォルダデータセットでファインチューニングされたDeepfake音声検出モデル、精度99.73%
音声分類 Transformers
D
MelodyMachine
2,289
14
Wav2vec2 Base Audioset
HuBERTアーキテクチャに基づくオーディオ表現学習モデルで、完全なAudioSetデータセットで事前学習済み
音声分類 Transformers
W
ALM
2,191
0
Musical Instrument Detection
Apache-2.0
wav2vec 2.0アーキテクチャに基づく音声認識ベースモデル、960時間の英語音声データで事前学習済み
音声分類 Transformers
M
dima806
2,109
7
Ast Finetuned Audioset 10 10 0.448 V2
Bsd-3-clause
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、オーディオをスペクトログラムに変換後、ビジョントランスフォーマーで処理し、オーディオ分類タスクで優れた性能を発揮します。
音声分類 Transformers
A
MIT
2,072
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase