VAD开源语音活动检测模型 - 免费使用精准识别音频有效语音段

首页

Vad

由 salmanshahid 开发

基于pyannote.audio的语音活动检测模型，用于识别音频中的有效语音段

语音识别开源协议:MIT #语音活动检测 #端到端分割 #会议场景优化

下载量 1,794

发布时间 : 11/16/2024

模型简介

该模型主要用于检测音频中的语音活动，能够准确识别语音段的开始和结束时间点，适用于会议记录、语音分析等场景。

模型特点

高精度语音段检测

能够准确识别音频中的有效语音段，包括开始和结束时间点

端到端处理

采用端到端的神经网络架构，简化处理流程

会议场景优化

在AMI会议数据集等会议场景数据上表现良好

模型能力

语音活动检测

语音段时间标记

会议音频分析

使用案例

会议记录

会议语音分段

自动检测会议录音中的语音段，便于后续分析和转录

准确标记各发言人的语音时间段

语音分析

语音活动统计

统计音频中语音活动的时间分布

提供语音活动的时间分布数据

🚀 语音活动检测模型

本项目是一个基于pyannote.audio的语音活动检测模型，可用于识别音频中的语音片段。它依赖于pyannote.audio 2.1，并提供了简单易用的API，方便开发者集成到自己的项目中。

🚀 快速开始

使用此开源模型进行生产时，可考虑切换到 pyannoteAI 以获得更好更快的选择。

该模型依赖于pyannote.audio 2.1，请参考安装说明进行安装。

💻 使用示例

基础用法

# 1. 访问 hf.co/pyannote/segmentation 并接受用户条件
# 2. 访问 hf.co/settings/tokens 创建访问令牌
# 3. 实例化预训练的语音活动检测管道

from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/voice-activity-detection",
                                    use_auth_token="ACCESS_TOKEN_GOES_HERE")
output = pipeline("audio.wav")

for speech in output.get_timeline().support():
    # 语音开始时间 speech.start 到结束时间 speech.end 之间为活跃语音
    ...

📚 详细文档

数据集

该模型在以下数据集上进行训练：

属性	详情
训练数据	ami、dihard、voxconverse

许可证

本项目采用 MIT 许可证。

额外的授权提示

收集的信息将有助于更好地了解pyannote.audio的用户群体，并帮助其维护者申请资助以进一步改进它。如果您是学术研究人员，请在自己的出版物中引用相关论文。如果您为公司工作，请考虑为pyannote.audio的开发做出贡献（例如，通过无限制捐赠）。我们还提供围绕说话人分割和机器听觉的科学咨询服务。

额外的授权字段

公司/大学：文本输入
网站：文本输入
我计划将此模型用于（任务、音频数据类型等）：文本输入

📄 引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}