Brouhaha开源多任务模型 - 轻松实现语音活动检测、信噪比及声学参数估计

首页

Brouhaha

由 pyannote 开发

联合语音活动检测、语音信噪比和C50房间声学参数估计的多任务模型

语音识别

PyTorch

开源协议:Openrail #联合语音检测 #声学参数估计 #多任务学习

下载量 142.46k

发布时间 : 10/28/2022

模型简介

该模型能够同时执行语音活动检测(VAD)、估计语音信噪比(SNR)和C50房间声学参数，适用于音频处理和环境声学分析。

模型特点

多任务联合训练

同时处理语音活动检测、信噪比估计和房间声学参数估计三项任务

实时处理能力

能够逐帧分析音频，提供实时检测和估计结果

广泛适用性

适用于各种语音环境和声学场景

模型能力

语音活动检测

信噪比估计

房间声学分析

音频环境评估

使用案例

语音处理

会议记录增强

识别有效语音并优化录音质量

提高语音识别准确率

声学环境评估

评估房间的声学特性

优化音响系统配置

音频分析

语音质量监测

实时监测语音信号质量

及时发现音频质量问题

🚀 🎙️🥁🚨🔊 Brouhaha

Brouhaha是一个可以同时进行语音活动检测、信噪比和C50房间声学估计的模型。它基于多个数据集进行训练，能为音频处理相关任务提供有力支持。

简要说明 | 论文 | 代码 | 来点完全不同的

Sample Brouhaha predictions

🚀 快速开始

Brouhaha模型可用于联合语音活动检测、信噪比和C50房间声学估计。下面将介绍其安装和使用方法。

✨ 主要特性

联合进行语音活动检测、信噪比和C50房间声学估计。
基于多个公开数据集进行训练，具有较好的泛化能力。

📦 安装指南

此模型依赖于 pyannote.audio 和 brouhaha-vad。可使用以下命令进行安装：

pip install pyannote-audio
pip install https://github.com/marianne-m/brouhaha-vad/archive/main.zip

💻 使用示例

基础用法

# 1. 访问 hf.co/pyannote/brouhaha 并接受用户使用条件
# 2. 访问 hf.co/settings/tokens 创建访问令牌
# 3. 实例化预训练模型
from pyannote.audio import Model
model = Model.from_pretrained("pyannote/brouhaha", 
                              use_auth_token="ACCESS_TOKEN_GOES_HERE")

# 应用模型 
from pyannote.audio import Inference
inference = Inference(model)
output = inference("audio.wav")

# 遍历每一帧
for frame, (vad, snr, c50) in output:
    t = frame.middle
    print(f"{t:8.3f} vad={100*vad:.0f}% snr={snr:.0f} c50={c50:.0f}")

#  ...
# 12.952 vad=100% snr=51 c50=17
# 12.968 vad=100% snr=52 c50=17
# 12.985 vad=100% snr=53 c50=17
# ...

📚 详细文档

引用信息

如果您使用了该模型，请引用以下文献：

@article{lavechin2022brouhaha,
  Title   = {{Brouhaha: multi-task training for voice activity detection, speech-to-noise ratio, and C50 room acoustics estimation}},
  Author  = {Marvin Lavechin and Marianne Métais and Hadrien Titeux and Alodie Boissonnet and Jade Copet and Morgane Rivière and Elika Bergelson and Alejandrina Cristia and Emmanuel Dupoux and Hervé Bredin},
  Year    = {2022},
  Journal = {arXiv preprint arXiv: Arxiv-2210.13248}
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Hervé and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}

📄 许可证

该模型使用的许可证为OpenRAIL。

额外信息

属性	详情
标签	pyannote、pyannote-audio、pyannote-audio-model、audio、voice、speech、voice-activity-detection、speech-to-noise ratio、snr、room acoustics、c50
数据集	LibriSpeech、AudioSet、EchoThief、MIT-Acoustical-Reverberation-Scene
许可证	OpenRAIL
额外 gated 提示	收集的信息将有助于更好地了解该模型的用户群体，并帮助维护者申请资助以进一步改进它。
额外 gated 字段	公司/大学（文本）、网站（文本）、我计划将此模型用于（任务、音频数据类型等）（文本）