S

Speaker Diarization 3.0

由 pyannote 开发
基于pyannote.audio 3.0.0训练的说话人分割管道,支持自动语音活动检测、说话人变化检测和重叠语音检测
下载量 463.91k
发布时间 : 9/22/2023

模型简介

该模型用于音频中的说话人分割任务,能够自动识别音频中的不同说话人及其活动时间段,支持16kHz采样的单声道音频处理。

模型特点

自动语音活动检测
无需手动语音活动检测,模型自动识别语音活动
说话人数量自动推断
可自动推断音频中的说话人数量,也支持手动指定
重叠语音处理
能够检测和处理说话人重叠的语音片段
多数据集训练
在AISHELL、AliMeeting、AMI等多个数据集上训练,具有广泛适用性

模型能力

说话人分割
语音活动检测
说话人变化检测
重叠语音检测
自动说话人计数

使用案例

会议记录
会议记录说话人分割
自动识别会议录音中的不同发言人及其发言时间
DER 12.3% (AISHELL-4数据集)
语音分析
多说话人语音分析
分析包含多个说话人的音频文件,识别各说话人活动时间段
DER 19.0% (AMI数据集)
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase