VADオープンソース音声活動検出モデル - 無料で使用可能、高精度でオーディオの有効音声セグメントを識別

ホーム

Vad

salmanshahidによって開発

pyannote.audioベースの音声活動検出モデルで、オーディオ内の有効な音声セグメントを識別

音声認識オープンソースライセンス:MIT #音声活動検出 #エンドツーエンド分割 #会議シーン最適化

ダウンロード数 1,794

リリース時間 : 11/16/2024

モデル概要

このモデルは主にオーディオ内の音声活動を検出するために使用され、音声セグメントの開始と終了時間点を正確に識別でき、会議記録や音声分析などのシナリオに適しています。

モデル特徴

高精度音声セグメント検出

オーディオ内の有効な音声セグメントを正確に識別でき、開始と終了時間点を含む

エンドツーエンド処理

エンドツーエンドのニューラルネットワークアーキテクチャを採用し、処理フローを簡素化

会議シーン最適化

AMI会議データセットなどの会議シーンデータで良好なパフォーマンス

モデル能力

音声活動検出

音声セグメント時間マーキング

会議オーディオ分析

使用事例

会議記録

会議音声セグメンテーション

会議録音内の音声セグメントを自動検出し、後続の分析と転記を容易にする

各発言者の音声時間帯を正確にマーク

音声分析

音声活動統計

オーディオ内の音声活動の時間分布を統計

音声活動の時間分布データを提供

🚀 音声アクティビティ検出

このオープンソースモデルを本番環境で使用していますか？より良く、より高速なオプションを求めるなら、pyannoteAI を検討してください。

音声アクティビティ検出は pyannote.audio 2.1 に依存しています。インストール手順を参照してください。

🚀 クイックスタート

コードサンプル

# 1. hf.co/pyannote/segmentation にアクセスし、ユーザー条件に同意する
# 2. hf.co/settings/tokens にアクセスし、アクセストークンを作成する
# 3. 事前学習済みの音声アクティビティ検出パイプラインをインスタンス化する

from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/voice-activity-detection",
                                    use_auth_token="ACCESS_TOKEN_GOES_HERE")
output = pipeline("audio.wav")

for speech in output.get_timeline().support():
    # speech.start と speech.end の間にアクティブな音声がある
    ...

📚 ドキュメント

引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}

📄 ライセンス

このモデルは MIT ライセンスの下で提供されています。

⚠️ 重要提示

収集された情報は、pyannote.audio のユーザーベースに関するより良い知識を得るのに役立ち、そのメンテナがさらに改善するための助成金を申請するのに役立ちます。学術研究者の場合は、自分の出版物で関連する論文を引用してください。企業で働いている場合は、pyannote.audio の開発に貢献することを検討してください（例えば、無制限の寄付を通じて）。また、話者分離や機械聴取に関する科学的なコンサルティングサービスも提供しています。

属性	详情
タグ	pyannote、pyannote-audio、pyannote-audio-pipeline、audio、voice、speech、speaker、voice-activity-detection、automatic-speech-recognition
データセット	ami、dihard、voxconverse
ライセンス	MIT