W

Wespeaker Voxceleb Resnet293 LM

Wespeakerによって開発
ResNet293アーキテクチャに基づく話者埋め込みモデルで、大マージンファインチューニング最適化を経ており、話者認識、類似度計算、音声分割などのタスクをサポート
ダウンロード数 108
リリース時間 : 12/28/2023

モデル概要

このモデルはWespeakerプロジェクトによって提供され、ResNet293アーキテクチャを採用し、大マージンファインチューニング最適化を経ています。主に話者認識と音声処理タスクに使用されます。VoxCeleb2開発データセットでトレーニングされ、5994人の話者を含みます。

モデル特徴

大マージンファインチューニング最適化
大マージンファインチューニング技術を採用してモデル性能を最適化し、話者認識精度を大幅に向上
効率的なアーキテクチャ
ResNet293アーキテクチャに基づき、高性能を維持しながら計算量を制御
マルチタスクサポート
話者埋め込み抽出、類似度計算、音声分割など複数のタスクをサポート

モデル能力

話者認識
話者類似度計算
音声分割
話者登録と認識

使用事例

音声バイオメトリクス
話者検証
音声サンプルが特定の話者に属するかどうかを検証
VoxCelebテストセットでEERが0.447
音声分析
会議音声分割
会議録音中の異なる話者を識別・分割
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase