O

Overlapped Speech Detection

由 pyannote 开发
一个用于检测音频中重叠语音的预训练模型,能够识别两个或更多说话人同时活跃的时间段。
下载量 144.68k
发布时间 : 3/2/2022

模型简介

该模型主要用于检测音频中的重叠语音部分,即两个或更多说话人同时说话的片段。适用于语音处理、说话人日志等任务。

模型特点

重叠语音检测
准确识别音频中两个或更多说话人同时活跃的时间段
端到端训练
采用端到端的训练方式,直接从原始音频学习特征
预训练模型
提供开箱即用的预训练模型,无需从头训练

模型能力

重叠语音检测
说话人分割
音频时间线分析

使用案例

语音处理
会议记录分析
分析会议录音中的重叠对话部分,提高转录准确性
可识别多人同时发言的片段
说话人日志
为说话人日志系统提供重叠语音检测功能
改善说话人分割的准确性
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase