S

Speaker Diarization 2.5

Willy030125によって開発
pyannote/speaker-diarization-3.0をベースに改良した話者分割モデル。speechbrain/spkrec-ecapa-voxcelebを使用した話者埋め込みにより、特定のテストでより優れた性能を発揮
ダウンロード数 26
リリース時間 : 3/24/2025

モデル概要

音声中の話者分割と変更検出に使用可能。自動音声活動検出、オーバーラップ音声検出、話者数自動検出をサポート

モデル特徴

自動話者数検出
手動で話者数を指定する必要がなく、モデルが自動検出可能
改良された話者埋め込み
speechbrain/spkrec-ecapa-voxcelebを使用した話者埋め込みにより、特定のシナリオでより優れた性能
完全自動処理
手動の音声活動検出やハイパーパラメータ調整が不要
GPUアクセラレーション対応
GPU処理をサポート、リアルタイムファクター約2.5%

モデル能力

話者分割
話者変更検出
音声活動検出
オーバーラップ音声検出
自動話者数推定

使用事例

会議記録
会議記録分析
会議中の異なる発言者の音声セグメントを自動識別
DER 12.3% (AISHELL-4データセット)
音声文字起こし
自動音声認識前処理
ASRシステムに話者分割情報を提供
メディア分析
放送番組分析
放送番組中の司会者とゲストの発話状況を分析
DER 7.8% (REPEREデータセット)
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase