W

Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan

0bi0n3によって開発
wav2vec2アーキテクチャに基づくオーディオ分類モデルで、GTZANデータセットでファインチューニングされ、音楽と音声の分類タスクに使用されます
ダウンロード数 15
リリース時間 : 9/16/2023

モデル概要

このモデルはwav2vec2アーキテクチャに基づくオーディオ分類モデルで、音楽と音声の分類タスクに特化してファインチューニングされています。GTZANデータセットで85%の精度を達成しました。

モデル特徴

高精度
GTZANデータセットで85%の分類精度を達成
wav2vec2アーキテクチャベース
先進的なwav2vec2アーキテクチャを利用したオーディオ特徴抽出と分類
音楽/音声分類
音楽と音声の分類タスクに特化して最適化

モデル能力

オーディオ分類
音楽認識
音声認識

使用事例

オーディオコンテンツ分析
音楽ストリーミング分類
オーディオストリーム内の音楽コンテンツを自動識別
精度85%
音声コンテンツ検出
混合オーディオ内の音声コンテンツを識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase