S

Speaker Diarization Optimized

由G-Root開發
Pyannote.audio的說話人分割管道,用於自動檢測音頻中的說話人變化和分割語音片段
下載量 349
發布時間 : 1/25/2024

模型概述

這是一個用於說話人分割的音頻處理管道,能夠自動檢測音頻中的說話人變化、識別重疊語音,並輸出說話人分割結果。它支持16kHz採樣的單聲道音頻,可自動處理立體聲/多聲道音頻的降混和重採樣。

模型特點

純PyTorch實現
移除了有問題的onnxruntime依賴,完全使用PyTorch運行,簡化部署並可能加速推理
自動處理
完全自動化處理,無需手動語音活動檢測或指定說話人數量
多格式支持
支持輸出RTTM格式的分割結果,方便後續處理和分析
GPU加速
支持在GPU上運行以加速處理

模型能力

說話人分割
語音活動檢測
重疊語音檢測
自動說話人計數
音頻降混處理
音頻重採樣

使用案例

會議記錄
會議記錄分割
自動分割會議錄音中的不同發言人
提高會議記錄效率,減少人工轉錄時間
媒體分析
廣播節目分析
分析廣播節目中的主持人切換和嘉賓發言
幫助內容分析人員快速瞭解節目結構
語音研究
語音數據庫標註
自動為語音數據庫添加說話人標籤
大幅減少人工標註工作量
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase