P

Pyannote Speaker Diarization Endpoint

由philschmid開發
基於pyannote.audio 2.0的說話人分割模型,用於自動檢測音頻中的說話人變化和語音活動
下載量 51
發布時間 : 10/7/2022

模型概述

該模型是一個端到端的說話人分割系統,能夠自動檢測音頻中的說話人變化、語音活動以及重疊語音,無需手動干預即可完成說話人分割任務。

模型特點

全自動處理
無需手動語音活動檢測或指定說話人數量即可完成分割
重疊語音檢測
能夠檢測並處理說話人重疊的情況
說話人數量自適應
可自動確定說話人數量,也支持手動指定
高性能
在多個基準測試數據集上表現優異

模型能力

說話人分割
語音活動檢測
重疊語音檢測
說話人變化檢測
自動說話人計數

使用案例

會議記錄
會議記錄分割
自動分割會議錄音中的不同發言人
在AMI數據集上達到18.21%的DER
電話錄音分析
客服電話分析
自動區分客服和客戶的語音片段
在CALLHOME數據集上達到30.24%的DER
媒體內容分析
訪談節目分析
自動識別訪談節目中的主持人和嘉賓
在VoxConverse數據集上達到12.76%的DER
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase