S

Speaker Diarization

pyannoteによって開発
pyannote.audio 2.1.1バージョンに基づく話者分割モデルで、音声中の話者の変化と重複音声を自動検出するために使用されます。
ダウンロード数 910.93k
リリース時間 : 3/2/2022

モデル概要

このモデルはエンドツーエンドの話者分割パイプラインで、音声中の話者の変化を自動検出し、重複音声を識別し、話者の数を手動で指定する必要なく分割タスクを完了することができます。

モデル特徴

全自動処理
手動での音声活動検出や話者の数の指定なしで分割を完了できます。
重複音声検出
話者が重複する音声フラグメントを正確に識別して処理することができます。
話者数の自動適応
異なる数の話者に自動的に適応でき、話者の数の範囲を手動で指定することもサポートしています。
高性能
複数のベンチマークテストデータセットで優れた性能を発揮し、リアルタイム係数は約2.5%です。

モデル能力

話者分割
話者の変化検出
音声活動検出
重複音声検出
自動音声認識支援

使用事例

会議記録
会議記録の話者分割
会議録音中の異なる発言者の音声フラグメントを自動識別します。
AMIデータセットでDERは18.91%です。
メディア分析
ラジオ番組の話者分析
ラジオ番組の話者の変化と重複状況を分析します。
This American LifeデータセットでDERは20.82%です。
音声認識前処理
ASRシステムの前処理
自動音声認識システムに話者分割情報を提供します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase