S

Segmentation 3.0

由fatymatariq開發
這是一個用於音頻分割的模型,能夠檢測說話人變化、語音活動及重疊語音,適用於多說話人場景的音頻分析。
下載量 1,228
發布時間 : 11/21/2024

模型概述

該模型處理10秒單聲道音頻片段,輸出包含7個類別的說話人日誌矩陣,支持非語音、單個說話人及多個說話人重疊的檢測。

模型特點

冪集多類編碼
支持7種說話人狀態的分類,包括非語音、單個說話人及多個說話人重疊場景。
高精度分割
在多種數據集上訓練,能夠準確檢測說話人變化和語音活動。
多數據集訓練
結合AISHELL、AliMeeting、AMI等多個數據集訓練,具有廣泛適用性。

模型能力

說話人日誌
語音活動檢測
重疊語音檢測
說話人變化檢測

使用案例

會議記錄
多說話人會議記錄
自動分割會議錄音中的不同說話人,便於後續轉錄和分析。
提高會議記錄的準確性和效率。
語音分析
重疊語音檢測
檢測音頻中的重疊語音部分,適用於對話分析和語音增強。
提升語音處理的精度。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase