S

Speaker Diarization 3.1

由tensorlake開發
一個用於說話人分割和嵌入的音頻處理模型,支持自動語音活動檢測和重疊語音檢測。
下載量 393
發布時間 : 7/25/2024

模型概述

該模型接收16kHz採樣的單聲道音頻,輸出說話人分割結果,支持自動下混和重採樣,無需手動語音活動檢測或說話人數量指定。

模型特點

純PyTorch實現
移除了有問題的onnxruntime使用,簡化部署並可能加速推理。
自動處理
自動處理立體聲/多聲道音頻和不同採樣率,無需預處理。
說話人數量控制
支持指定說話人數量或設置上下限。
進度監控
可通過鉤子監控管道處理進度。

模型能力

說話人分割
語音活動檢測
重疊語音檢測
說話人變化檢測
自動語音識別輔助

使用案例

會議記錄
會議記錄分析
自動識別會議中不同發言人的語音片段
生成帶時間戳的說話人分割結果
媒體制作
播客/訪談分析
自動分割播客或訪談中的不同說話人
生成RTTM格式的分割文件
語音分析
語音活動檢測
檢測音頻中的語音活動區域
準確識別語音和非語音片段
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase