P

Pyannote Speaker Diarization 31

由 collinbarnwell 开发
Pyannote.audio的说话人日志管道,用于自动检测和分割音频中的不同说话人
下载量 835
发布时间 : 2/8/2024

模型简介

这是一个用于说话人日志的开源管道,能够自动检测音频中的不同说话人,识别说话人变化,并支持重叠语音检测。它处理16kHz采样的单声道音频,输出说话人日志信息。

模型特点

纯PyTorch实现
移除了有问题的onnxruntime使用,说话人分割和嵌入均使用纯PyTorch运行,简化部署并可能加速推理
自动处理
完全自动化处理,无需手动语音活动检测或指定说话人数量
多格式支持
支持立体声/多声道音频自动下混为单声道,支持不同采样率音频自动重采样
说话人数量控制
可指定说话人数量或提供数量范围(min_speakers/max_speakers)

模型能力

说话人变化检测
语音活动检测
重叠语音检测
自动说话人识别
音频处理

使用案例

会议记录
会议记录分析
自动识别会议录音中不同发言人的时间段
提高会议记录效率,自动生成发言时间线
媒体分析
广播节目分析
分析广播节目中主持人和嘉宾的发言时间分布
帮助内容生产者优化节目结构
语音研究
语音交互研究
研究多人对话中的发言模式和重叠语音
为语音交互系统提供基础数据
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase