W

Wav2vec2 Base Superb Sid

superbによって開発
Wav2Vec2-base事前学習モデルを基に、VoxCeleb1データセットでファインチューニングされた話者認識モデルで、音声分類タスクに使用されます
ダウンロード数 1,489
リリース時間 : 3/2/2022

モデル概要

このモデルはS3PRLのWav2Vec2をSUPERB話者認識タスクに移植したバージョンで、各音声を話者IDごとに多クラス分類できます

モデル特徴

Wav2Vec2事前学習モデルベース
facebook/wav2vec2-baseを基礎モデルとして使用、このモデルは16kHzサンプリングの音声データで事前学習されています
VoxCeleb1データセットでファインチューニング
広く使用されているVoxCeleb1データセットでファインチューニングされ、話者認識タスクに適しています
高精度
テストセットで75.18%の精度を達成

モデル能力

話者認識
音声分類
音声特徴抽出

使用事例

セキュリティ認証
声紋認証システム
認証システム向けの話者認識
特定話者の識別が可能
音声分析
会議議事録分析
会議録音から異なる発言者の音声セグメントを識別
自動的に異なる話者を区別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase