P

Pyannote Segmentation

由it-just-works開發
這是一個基於冪集編碼的說話人分割模型,能夠處理10秒音頻片段並識別多個說話人及其重疊情況。
下載量 771
發布時間 : 4/10/2025

模型概述

該模型用於音頻中的說話人分割,可檢測最多3個說話人及其重疊情況,輸出7種可能的說話人組合狀態。

模型特點

冪集編碼
使用獨特的冪集編碼方式處理多說話人場景,可同時識別單個說話人和重疊說話人
多任務支持
同一模型可用於說話人分割、語音活動檢測和重疊語音檢測
高效處理
專為10秒音頻片段優化,適合即時或批量處理

模型能力

說話人分割
語音活動檢測
重疊語音檢測
多說話人識別

使用案例

會議記錄
會議發言記錄
自動識別會議中不同發言者及其發言時間
準確分割各發言者語音段
語音分析
重疊語音檢測
檢測對話中多人同時說話的情況
識別重疊語音段
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase