P

Phil Pyannote Speaker Diarization Endpoint

tawkitによって開発
pyannote.audio 2.0バージョンに基づくスピーカーダイアリゼーションモデルで、音声中の異なる話者を自動検出・分割します。
ダウンロード数 215
リリース時間 : 11/13/2022

モデル概要

このモデルは音声中の話者変化を自動検出し、異なる話者を識別、オーバーラップ音声検出をサポートします。会議記録、電話録音分析などのシナリオに適しています。

モデル特徴

完全自動処理
手動の音声活動検出や話者数の指定が不要で、モデルが全ての処理ステップを自動で完了します。
話者数制限サポート
パラメータで話者数の下限と上限を指定可能で、分割精度を向上させます。
高性能リアルタイム処理
GPUアクセラレーションを使用し、リアルタイムファクター約5%、1時間の音声処理に約3分かかります。
複数データセット検証
AMI、DIHARD、VoxConverseなど複数の公開データセットでベンチマークテストを実施しました。

モデル能力

スピーカー分割
音声活動検出
オーバーラップ音声検出
自動音声認識補助

使用事例

会議記録
会議発言分割
会議録音中の異なる発言者のセグメントを自動識別
異なるデータセットでDER%が12.62%-30.24%の精度
コールセンター録音分析
カスタマーサービス会話分析
カスタマーサービスと顧客の対話セグメントを自動分割
CALLHOMEデータセットでDER%が30.24%
メディアコンテンツ処理
インタビュー番組字幕生成
インタビュー番組で異なるゲストの発言時間を自動識別
VoxConverseデータセットでDER%が12.76%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase