S

Speaker Diarization V1

由objects76開發
這是一個基於冪集多類交叉熵損失的說話人分割模型,能夠處理10秒單聲道音頻,輸出說話人分割結果。
下載量 13
發布時間 : 9/9/2024

模型概述

該模型主要用於音頻中的說話人分割、語音活動檢測和重疊語音檢測,支持多說話人場景下的語音分析。

模型特點

冪集多類編碼
使用冪集多類交叉熵損失進行訓練,能夠同時處理多個說話人的語音分割。
多說話人支持
能夠識別最多3個說話人及其重疊語音情況。
集成多種數據集
訓練數據整合了AISHELL、AliMeeting、AMI等多個知名數據集。

模型能力

說話人分割
語音活動檢測
重疊語音檢測
多說話人識別

使用案例

語音分析
會議記錄分析
自動識別會議錄音中不同發言人的語音段落
提高會議記錄效率,自動區分發言人
語音轉寫預處理
在語音識別前進行說話人分割
提高轉寫準確性,實現說話人標註
音頻處理
重疊語音檢測
識別音頻中多人同時說話的部分
幫助分析對話交互模式
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase