S

Speaker Diarization 3.1

由fatymatariq開發
Pyannote音頻說話人分割管道,用於自動檢測和分割音頻中的不同說話人
下載量 1,120
發布時間 : 11/21/2024

模型概述

這是一個用於說話人分割的音頻處理管道,能夠自動檢測音頻中的不同說話人並進行分割,支持16kHz採樣的單聲道音頻處理。

模型特點

純PyTorch實現
移除了有問題的onnxruntime使用,說話人分割和嵌入均以純PyTorch運行,簡化部署並可能加速推理
自動音頻處理
自動處理立體聲/多聲道音頻的降混和不同採樣率音頻的重採樣
說話人數量控制
支持指定說話人數量或設置說話人數量的上下限
全面基準測試
在多個公開數據集上進行了嚴格的基準測試,性能指標透明

模型能力

說話人分割
說話人變更檢測
語音活動檢測
重疊語音檢測
自動音頻重採樣
多聲道音頻處理

使用案例

會議記錄
會議發言記錄
自動識別會議錄音中不同發言人的時間段
生成帶時間戳的說話人分割結果
媒體分析
訪談節目分析
分析訪談節目中主持人和嘉賓的發言時間分佈
提供詳細的說話人交替統計數據
語音處理
語音識別預處理
為自動語音識別系統提供說話人分割信息
提高ASR系統在多說話人場景下的準確性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase