S

Speaker Diarization Optimized

由 G-Root 开发
Pyannote.audio的说话人分割管道,用于自动检测音频中的说话人变化和分割语音片段
下载量 349
发布时间 : 1/25/2024

模型简介

这是一个用于说话人分割的音频处理管道,能够自动检测音频中的说话人变化、识别重叠语音,并输出说话人分割结果。它支持16kHz采样的单声道音频,可自动处理立体声/多声道音频的降混和重采样。

模型特点

纯PyTorch实现
移除了有问题的onnxruntime依赖,完全使用PyTorch运行,简化部署并可能加速推理
自动处理
完全自动化处理,无需手动语音活动检测或指定说话人数量
多格式支持
支持输出RTTM格式的分割结果,方便后续处理和分析
GPU加速
支持在GPU上运行以加速处理

模型能力

说话人分割
语音活动检测
重叠语音检测
自动说话人计数
音频降混处理
音频重采样

使用案例

会议记录
会议记录分割
自动分割会议录音中的不同发言人
提高会议记录效率,减少人工转录时间
媒体分析
广播节目分析
分析广播节目中的主持人切换和嘉宾发言
帮助内容分析人员快速了解节目结构
语音研究
语音数据库标注
自动为语音数据库添加说话人标签
大幅减少人工标注工作量
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase