S

Speaker Diarization 2.5

由Willy030125開發
基於pyannote/speaker-diarization-3.0修改的說話人分割模型,使用speechbrain/spkrec-ecapa-voxceleb進行說話人嵌入,在某些測試中表現更優
下載量 26
發布時間 : 3/24/2025

模型概述

用於音頻中的說話人分割和變更檢測,支持自動語音活動檢測、重疊語音檢測和說話人數量自動檢測

模型特點

自動說話人數量檢測
無需手動指定說話人數量,模型可自動檢測
改進的說話人嵌入
使用speechbrain/spkrec-ecapa-voxceleb進行說話人嵌入,在某些場景下表現更優
全自動處理
無需手動語音活動檢測或調整超參數
GPU加速支持
支持GPU處理,即時因子約為2.5%

模型能力

說話人分割
說話人變更檢測
語音活動檢測
重疊語音檢測
自動說話人數量估計

使用案例

會議記錄
會議記錄分析
自動識別會議中不同發言人的語音片段
DER 12.3% (AISHELL-4數據集)
語音轉寫
自動語音識別預處理
為ASR系統提供說話人分割信息
媒體分析
廣播節目分析
分析廣播節目中不同主持人和嘉賓的發言情況
DER 7.8% (REPERE數據集)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase