S

Segmentation 3.0

Developed by tensorlake
這是一個基於pyannote.audio的說話人分割模型,能檢測語音活動、說話人變更和重疊語音。
Downloads 387
Release Time : 7/25/2024

Model Overview

該模型處理10秒16kHz採樣的單聲道音頻,輸出7類說話人分割結果,包括非語音、單個說話人和重疊說話人檢測。

Model Features

多任務處理
同時支持語音活動檢測、說話人分割和重疊語音檢測
高效處理
專為10秒音頻片段優化,適合即時處理
多數據集訓練
使用AISHELL、AliMeeting、AMI等多個數據集訓練,泛化能力強

Model Capabilities

語音活動檢測
說話人分割
重疊語音檢測
說話人變更檢測

Use Cases

會議分析
會議記錄
自動識別會議中的不同說話人
提高會議記錄效率
語音分析
語音活動檢測
識別音頻中的語音片段
可用於語音識別預處理
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase