wav2vec2-baseオープンソース音声分類モデル - 無料でデプロイし、音楽と音声を高精度で分類

Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan

0bi0n3によって開発

wav2vec2アーキテクチャに基づくオーディオ分類モデルで、GTZANデータセットでファインチューニングされ、音楽と音声の分類タスクに使用されます

ダウンロード数 15

リリース時間 : 9/16/2023

モデル概要

このモデルはwav2vec2アーキテクチャに基づくオーディオ分類モデルで、音楽と音声の分類タスクに特化してファインチューニングされています。GTZANデータセットで85%の精度を達成しました。

高精度

GTZANデータセットで85%の分類精度を達成

wav2vec2アーキテクチャベース

先進的なwav2vec2アーキテクチャを利用したオーディオ特徴抽出と分類

音楽/音声分類

音楽と音声の分類タスクに特化して最適化

オーディオ分類

音楽認識

音声認識

オーディオコンテンツ分析

音楽ストリーミング分類

オーディオストリーム内の音楽コンテンツを自動識別

精度85%

音声コンテンツ検出

混合オーディオ内の音声コンテンツを識別