W

Wespeaker Voxceleb Resnet34 LM

Wespeakerによって開発
ResNet34アーキテクチャに基づく話者埋め込みモデルで、大マージンファインチューニングを経てVoxCeleb2データセットでトレーニングされ、話者認識や類似度計算などのタスクをサポートします。
ダウンロード数 33
リリース時間 : 2/26/2024

モデル概要

このモデルは話者特徴埋め込みの抽出に使用され、話者認識、類似度計算、音声セグメンテーションなどのタスクをサポートします。

モデル特徴

大マージンファインチューニング
モデルは大マージンファインチューニングを経て、話者認識の精度が向上しました。
効率的な推論
モデルのパラメータ数は適度で、計算量は4.55Gであり、実際のアプリケーション展開に適しています。
多機能サポート
話者埋め込み抽出、類似度計算、音声セグメンテーションなど、さまざまなタスクをサポートします。

モデル能力

話者特徴抽出
話者類似度計算
音声セグメンテーション
話者認識
話者登録と認証

使用事例

セキュリティ認証
声紋認識システム
本人確認のための声紋認識システム
VoxCelebテストセットで0.723のEER(等誤り率)を達成
音声分析
会議音声セグメンテーション
会議録音から異なる話者のセグメントを自動的に分割
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase