P

Pyannote Speaker Diarization 31

由collinbarnwell開發
Pyannote.audio的說話人日誌管道,用於自動檢測和分割音頻中的不同說話人
下載量 835
發布時間 : 2/8/2024

模型概述

這是一個用於說話人日誌的開源管道,能夠自動檢測音頻中的不同說話人,識別說話人變化,並支持重疊語音檢測。它處理16kHz採樣的單聲道音頻,輸出說話人日誌信息。

模型特點

純PyTorch實現
移除了有問題的onnxruntime使用,說話人分割和嵌入均使用純PyTorch運行,簡化部署並可能加速推理
自動處理
完全自動化處理,無需手動語音活動檢測或指定說話人數量
多格式支持
支持立體聲/多聲道音頻自動下混為單聲道,支持不同採樣率音頻自動重採樣
說話人數量控制
可指定說話人數量或提供數量範圍(min_speakers/max_speakers)

模型能力

說話人變化檢測
語音活動檢測
重疊語音檢測
自動說話人識別
音頻處理

使用案例

會議記錄
會議記錄分析
自動識別會議錄音中不同發言人的時間段
提高會議記錄效率,自動生成發言時間線
媒體分析
廣播節目分析
分析廣播節目中主持人和嘉賓的發言時間分佈
幫助內容生產者優化節目結構
語音研究
語音交互研究
研究多人對話中的發言模式和重疊語音
為語音交互系統提供基礎數據
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase