P

Pyannote Segmentation 30

由collinbarnwell開發
這是一個用於音頻處理的說話人分割模型,能夠檢測語音活動、重疊語音和多個說話人。
下載量 873
發布時間 : 2/9/2024

模型概述

該模型處理16kHz採樣的10秒單聲道音頻,輸出包含7個類別的說話人分割結果,支持語音活動檢測和重疊語音檢測。

模型特點

多說話人檢測
能夠同時檢測最多3個說話人及其重疊部分。
短時處理
專門優化用於處理10秒音頻片段的分割任務。
多任務輸出
同時支持語音活動檢測和重疊語音檢測任務。

模型能力

說話人分割
語音活動檢測
重疊語音檢測
多說話人識別

使用案例

會議記錄
會議發言人識別
自動識別會議錄音中的不同發言人及其發言時段
提高會議記錄效率,自動生成發言記錄
語音分析
重疊語音檢測
檢測對話中多人同時說話的情況
改善語音識別系統在重疊語音場景下的表現
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase