S

Speaker Diarization

由 pyannote 开发
基于pyannote.audio 2.1.1版本的说话人分割模型,用于自动检测音频中的说话人变化和重叠语音
下载量 910.93k
发布时间 : 3/2/2022

模型简介

该模型是一个端到端的说话人分割管道,能够自动检测音频中的说话人变化、识别重叠语音,并无需手动指定说话人数量即可完成分割任务。

模型特点

全自动处理
无需手动语音活动检测或指定说话人数量即可完成分割
重叠语音检测
能够准确识别和处理说话人重叠的语音片段
说话人数量自适应
可自动适应不同数量的说话人,也支持手动指定说话人数量范围
高性能
在多个基准测试数据集上表现优异,实时因子约为2.5%

模型能力

说话人分割
说话人变化检测
语音活动检测
重叠语音检测
自动语音识别辅助

使用案例

会议记录
会议记录说话人分割
自动识别会议录音中不同发言人的语音片段
在AMI数据集上DER为18.91%
媒体分析
广播节目说话人分析
分析广播节目中的说话人变化和重叠情况
在This American Life数据集上DER为20.82%
语音识别预处理
ASR系统预处理
为自动语音识别系统提供说话人分割信息
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase