S

Speaker Diarization 3.0

由pyannote開發
基於pyannote.audio 3.0.0訓練的說話人分割管道,支持自動語音活動檢測、說話人變化檢測和重疊語音檢測
下載量 463.91k
發布時間 : 9/22/2023

模型概述

該模型用於音頻中的說話人分割任務,能夠自動識別音頻中的不同說話人及其活動時間段,支持16kHz採樣的單聲道音頻處理。

模型特點

自動語音活動檢測
無需手動語音活動檢測,模型自動識別語音活動
說話人數量自動推斷
可自動推斷音頻中的說話人數量,也支持手動指定
重疊語音處理
能夠檢測和處理說話人重疊的語音片段
多數據集訓練
在AISHELL、AliMeeting、AMI等多個數據集上訓練,具有廣泛適用性

模型能力

說話人分割
語音活動檢測
說話人變化檢測
重疊語音檢測
自動說話人計數

使用案例

會議記錄
會議記錄說話人分割
自動識別會議錄音中的不同發言人及其發言時間
DER 12.3% (AISHELL-4數據集)
語音分析
多說話人語音分析
分析包含多個說話人的音頻文件,識別各說話人活動時間段
DER 19.0% (AMI數據集)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase