voice-activity-detectionオープンソース音声検出モデル - 音声データ内の音声活動期間を高精度で識別

ホーム

Voice Activity Detection

pyannoteによって開発

pyannote.audio 2.1バージョンに基づく音声活動検出モデルで、音声中の音声活動時間帯を識別するために使用されます

音声認識オープンソースライセンス:MIT #音声活動検出 #話者分割 #重複音声処理

ダウンロード数 7.7M

リリース時間 : 3/2/2022

モデル概要

このモデルは主に音声中の音声活動を検出するために使用され、音声セグメントの開始と終了時間を正確に識別でき、音声処理プロセスの前処理ステップに適しています

モデル特徴

高精度音声検出

音声中の音声活動時間帯を正確に検出できます

エンドツーエンド処理

完全なエンドツーエンド音声活動検出ソリューションを提供します

統合の容易さ

既存システムへの統合を容易にするシンプルなPythonインターフェースを提供します

モデル能力

音声活動検出

音声時間マーキング

音声/非音声分類

使用事例

音声処理

自動音声認識前処理

ASRシステムの前に音声活動を検出し、認識効率を向上させます

非音声セグメントの処理オーバーヘッドを削減します

会議記録分析

会議録音中の発言時間帯をマークします

後続の話者分析や内容抽出が容易になります

🎹 音声活動検出

このオープンソースモデルを本番環境で使用していますか？より良く、より高速なオプションを求めるなら、pyannoteAI への切り替えを検討してください。

音声活動検出は pyannote.audio 2.1 に依存しています。インストール手順を参照してください。

🚀 クイックスタート

基本的な使用法

# 1. hf.co/pyannote/segmentation にアクセスし、ユーザー条件に同意する
# 2. hf.co/settings/tokens にアクセスし、アクセストークンを作成する
# 3. 事前学習済みの音声活動検出パイプラインをインスタンス化する

from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/voice-activity-detection",
                                    use_auth_token="ACCESS_TOKEN_GOES_HERE")
output = pipeline("audio.wav")

for speech in output.get_timeline().support():
    # speech.start と speech.end の間のアクティブな音声
    ...

📄 ライセンス

このモデルは MIT ライセンスの下で提供されています。

追加のゲート付き情報

収集された情報は、pyannote.audio のユーザーベースに関するより良い知識を得るのに役立ち、そのメンテナーがさらなる改善のための助成金を申請するのに役立ちます。学術研究者の場合は、モデルを使用した自分の出版物で関連する論文を引用してください。企業で働いている場合は、pyannote.audio の開発に貢献することを検討してください（例：無制限の寄付を通じて）。また、話者分離や機械聴取に関する科学的なコンサルティングサービスも提供しています。

属性	详情
タグ	pyannote、pyannote-audio、pyannote-audio-pipeline、audio、voice、speech、speaker、voice-activity-detection、automatic-speech-recognition
データセット	ami、dihard、voxconverse
ライセンス	MIT

📚 引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}