# 高精度オーディオ認識

Music Genres Classification Finetuned Gtzan
Apache-2.0
GTZANデータセットでファインチューニングされた音楽ジャンル分類モデル、精度93%
音声分類 Transformers
M
sugarblock
119
0
Wav2vec2 Base Superb Ks
wav2vec2アーキテクチャに基づくオーディオ分類モデルで、キーワード検出タスクに適しています。
音声分類 Transformers
W
Xenova
21
1
Ast Finetuned Audioset 12 12 0.447
Bsd-3-clause
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマー(AST)。ViTアーキテクチャを使用してオーディオスペクトログラムを処理し、複数のオーディオ分類ベンチマークで優れた性能を発揮します。
音声分類 Transformers
A
MIT
25
0
Ast Finetuned Audioset 10 10 0.448
Bsd-3-clause
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマー(AST)。ビジョントランスフォーマー構造を使用してオーディオスペクトログラムを処理し、オーディオ分類タスクで優れた性能を発揮します。
音声分類 Transformers
A
MIT
326
0
Ast Finetuned Audioset 10 10 0.4593
Bsd-3-clause
オーディオスペクトログラムトランスフォーマー(AST)はAudioSetでファインチューニングされたモデルで、オーディオをスペクトログラムに変換後、ビジョントランスフォーマーを適用してオーディオ分類を行います。
音声分類 Transformers
A
MIT
308.88k
311
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase