S

Segmentation 3.0

由 tensorlake 开发
这是一个基于pyannote.audio的说话人分割模型,能检测语音活动、说话人变更和重叠语音。
下载量 387
发布时间 : 7/25/2024

模型简介

该模型处理10秒16kHz采样的单声道音频,输出7类说话人分割结果,包括非语音、单个说话人和重叠说话人检测。

模型特点

多任务处理
同时支持语音活动检测、说话人分割和重叠语音检测
高效处理
专为10秒音频片段优化,适合实时处理
多数据集训练
使用AISHELL、AliMeeting、AMI等多个数据集训练,泛化能力强

模型能力

语音活动检测
说话人分割
重叠语音检测
说话人变更检测

使用案例

会议分析
会议记录
自动识别会议中的不同说话人
提高会议记录效率
语音分析
语音活动检测
识别音频中的语音片段
可用于语音识别预处理
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase