P

Phil Pyannote Speaker Diarization Endpoint

由tawkit開發
基於pyannote.audio 2.0版本的說話人分割模型,用於自動檢測和分割音頻中的不同說話人。
下載量 215
發布時間 : 11/13/2022

模型概述

該模型能夠自動檢測音頻中的說話人變化,識別不同的說話人,並支持重疊語音檢測。適用於會議記錄、電話錄音分析等場景。

模型特點

完全自動化處理
無需手動語音活動檢測或指定說話人數量,模型可自動完成所有處理步驟。
支持說話人數量限制
可通過參數指定說話人數量的下限和上限,提高分割準確性。
高性能即時處理
使用GPU加速,即時因子約為5%,處理一小時音頻僅需約3分鐘。
多數據集驗證
在多個公開數據集上進行了基準測試,包括AMI、DIHARD、VoxConverse等。

模型能力

說話人分割
語音活動檢測
重疊語音檢測
自動語音識別輔助

使用案例

會議記錄
會議發言分割
自動識別會議錄音中不同發言人的片段
準確率在不同數據集上DER%為12.62%-30.24%
客服錄音分析
客服對話分析
自動分割客服與客戶的對話片段
在CALLHOME數據集上DER%為30.24%
媒體內容處理
訪談節目字幕生成
為訪談節目自動識別不同嘉賓的發言時間
在VoxConverse數據集上DER%為12.76%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase