S

Speaker Diarization 3.1

由pyannote開發
一個用於說話人分割的音頻處理模型,能夠自動檢測和分割音頻中的不同說話人。
下載量 11.7M
發布時間 : 11/16/2023

模型概述

該模型接收16kHz採樣的單聲道音頻,輸出說話人分割結果。支持自動降混和重採樣,無需手動語音活動檢測或說話人數量指定。

模型特點

純PyTorch實現
移除了有問題的onnxruntime使用,簡化部署並可能加速推理。
自動處理
自動處理立體聲/多聲道音頻和不同採樣率,無需手動預處理。
說話人數量控制
可指定說話人數量或提供上下限,提高分割準確性。
進度監控
支持通過鉤子監控處理進度。

模型能力

說話人分割
說話人變更檢測
語音活動檢測
重疊語音檢測
自動語音識別輔助

使用案例

會議記錄
會議記錄分割
自動識別會議錄音中不同發言人的時間段
在AISHELL-4數據集上達到12.2%的分割錯誤率
媒體分析
廣播節目分析
分析廣播節目中不同主持人和嘉賓的發言時間分佈
在REPERE數據集上達到7.8%的分割錯誤率
語音轉寫
多說話人轉寫輔助
為自動語音識別系統提供說話人分割信息
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase