S

Segmentation 3.0

由tensorlake開發
這是一個基於pyannote.audio的說話人分割模型,能檢測語音活動、說話人變更和重疊語音。
下載量 387
發布時間 : 7/25/2024

模型概述

該模型處理10秒16kHz採樣的單聲道音頻,輸出7類說話人分割結果,包括非語音、單個說話人和重疊說話人檢測。

模型特點

多任務處理
同時支持語音活動檢測、說話人分割和重疊語音檢測
高效處理
專為10秒音頻片段優化,適合即時處理
多數據集訓練
使用AISHELL、AliMeeting、AMI等多個數據集訓練,泛化能力強

模型能力

語音活動檢測
說話人分割
重疊語音檢測
說話人變更檢測

使用案例

會議分析
會議記錄
自動識別會議中的不同說話人
提高會議記錄效率
語音分析
語音活動檢測
識別音頻中的語音片段
可用於語音識別預處理
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase