S

Speaker Diarization

由pyannote開發
基於pyannote.audio 2.1.1版本的說話人分割模型,用於自動檢測音頻中的說話人變化和重疊語音
下載量 910.93k
發布時間 : 3/2/2022

模型概述

該模型是一個端到端的說話人分割管道,能夠自動檢測音頻中的說話人變化、識別重疊語音,並無需手動指定說話人數量即可完成分割任務。

模型特點

全自動處理
無需手動語音活動檢測或指定說話人數量即可完成分割
重疊語音檢測
能夠準確識別和處理說話人重疊的語音片段
說話人數量自適應
可自動適應不同數量的說話人,也支持手動指定說話人數量範圍
高性能
在多個基準測試數據集上表現優異,即時因子約為2.5%

模型能力

說話人分割
說話人變化檢測
語音活動檢測
重疊語音檢測
自動語音識別輔助

使用案例

會議記錄
會議記錄說話人分割
自動識別會議錄音中不同發言人的語音片段
在AMI數據集上DER為18.91%
媒體分析
廣播節目說話人分析
分析廣播節目中的說話人變化和重疊情況
在This American Life數據集上DER為20.82%
語音識別預處理
ASR系統預處理
為自動語音識別系統提供說話人分割信息
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase