Brouhahaオープンソース多タスクモデル - 音声活動検出、信号対雑音比および音響パラメータ推定を簡単に実現

ホーム

Brouhaha

pyannoteによって開発

音声活動検出、音声SNRおよびC50室内音響パラメータ推定を同時に行うマルチタスクモデル

音声認識

PyTorch

オープンソースライセンス:Openrail #音声活動検出 #音響パラメータ推定 #マルチタスク学習

ダウンロード数 142.46k

リリース時間 : 10/28/2022

モデル概要

このモデルは音声活動検出(VAD)、音声SNR(信号対雑音比)推定、C50室内音響パラメータ推定を同時に実行可能で、音声処理や環境音響分析に適しています。

モデル特徴

マルチタスク統合学習

音声活動検出、SNR推定、室内音響パラメータ推定の3タスクを同時処理

リアルタイム処理能力

フレーム単位で音声を分析し、リアルタイム検出と推定結果を提供

幅広い適用性

様々な音声環境や音響シナリオに適用可能

モデル能力

音声活動検出

SNR推定

室内音響分析

音響環境評価

使用事例

音声処理

会議録音品質向上

有効音声を識別し録音品質を最適化

音声認識精度向上

音響環境評価

室内の音響特性を評価

音響システム設定の最適化

音声分析

音声品質モニタリング

音声信号品質をリアルタイム監視

音質問題の早期発見

🚀 クイックスタート

🎙️🥁🚨🔊 Brouhaha

Sample Brouhaha predictions

このモデルは、音声アクティビティ検出、信号対雑音比、およびC50の部屋音響特性を同時に推定するものです。

TL;DR | 論文 | コード | And Now for Something Completely Different

モデル情報

属性	详情
モデルタイプ	Joint voice activity detection, speech-to-noise ratio, and C50 room acoustics estimation
学習データ	LibriSpeech、AudioSet、EchoThief、MIT-Acoustical-Reverberation-Scene
ライセンス	openrail

注意事項

⚠️ 重要提示

収集された情報は、このモデルのユーザーベースに関するより良い知識を獲得し、そのメンテナがさらに改善するための助成金を申請するのに役立ちます。

💡 使用建议

このモデルを使用する前に、ユーザー条件を承認し、アクセストークンを作成する必要があります。

✨ 主な機能

このモデルは、音声アクティビティ検出、信号対雑音比、およびC50の部屋音響特性を同時に推定することができます。

📦 インストール

このモデルは、pyannote.audio と brouhaha-vad に依存しています。

pip install pyannote-audio
pip install https://github.com/marianne-m/brouhaha-vad/archive/main.zip

💻 使用例

基本的な使用法

# 1. visit hf.co/pyannote/brouhaha and accept user conditions
# 2. visit hf.co/settings/tokens to create an access token
# 3. instantiate pretrained model
from pyannote.audio import Model
model = Model.from_pretrained("pyannote/brouhaha", 
                              use_auth_token="ACCESS_TOKEN_GOES_HERE")

# apply model 
from pyannote.audio import Inference
inference = Inference(model)
output = inference("audio.wav")

# iterate over each frame
for frame, (vad, snr, c50) in output:
    t = frame.middle
    print(f"{t:8.3f} vad={100*vad:.0f}% snr={snr:.0f} c50={c50:.0f}")

#  ...
# 12.952 vad=100% snr=51 c50=17
# 12.968 vad=100% snr=52 c50=17
# 12.985 vad=100% snr=53 c50=17
# ...

📚 ドキュメント

引用

@article{lavechin2022brouhaha,
  Title   = {{Brouhaha: multi-task training for voice activity detection, speech-to-noise ratio, and C50 room acoustics estimation}},
  Author  = {Marvin Lavechin and Marianne Métais and Hadrien Titeux and Alodie Boissonnet and Jade Copet and Morgane Rivière and Elika Bergelson and Alejandrina Cristia and Emmanuel Dupoux and Hervé Bredin},
  Year    = {2022},
  Journal = {arXiv preprint arXiv: Arxiv-2210.13248}
}

```bibtex
@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}