Overlapped - Speech - Detectionオープンソースモデル - 音声中の複数人が同時に話す時間を精度よく検出

ホーム

Overlapped Speech Detection

pyannoteによって開発

音声中の重複音声を検出するための事前学習済みモデルで、2人以上の話者が同時に発話している時間帯を識別できます。

話者の処理オープンソースライセンス:MIT #重複音声検出 #話者分割 #エンドツーエンドモデル

ダウンロード数 144.68k

リリース時間 : 3/2/2022

モデル概要

このモデルは主に音声中の重複音声部分、つまり2人以上の話者が同時に話している部分を検出するために使用されます。音声処理、話者ログなどのタスクに適しています。

モデル特徴

重複音声検出

音声中で2人以上の話者が同時に発話している時間帯を正確に識別します。

エンドツーエンド学習

エンドツーエンドの学習方式を採用し、生の音声から直接特徴を学習します。

事前学習済みモデル

すぐに使える事前学習済みモデルを提供し、最初から学習する必要はありません。

モデル能力

重複音声検出

話者分割

音声タイムライン分析

使用事例

音声処理

会議記録分析

会議録音中の重複会話部分を分析し、文字起こしの精度を向上させます。

複数人が同時に発言している部分を識別できます。

話者ログ

話者ログシステムに重複音声検出機能を提供します。

話者分割の精度を向上させます。

🎹 重複話者検出

このオープンソースモデルは、重複する話者の音声を検出するためのものです。音声データ内で同時に発話している話者を特定することができ、自動音声認識や話者分離などのタスクに役立ちます。

🚀 クイックスタート

このモデルを使用するには、まずpyannote.audio 2.1をインストールする必要があります。インストール手順を参照してください。

# 1. hf.co/pyannote/segmentationにアクセスし、ユーザー条件を承認する
# 2. hf.co/settings/tokensにアクセスし、アクセストークンを作成する
# 3. 事前学習済みの重複話者検出パイプラインをインスタンス化する
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/overlapped-speech-detection",
                                    use_auth_token="ACCESS_TOKEN_GOES_HERE")
output = pipeline("audio.wav")

for speech in output.get_timeline().support():
    # speech.startとspeech.endの間で2人以上の話者が同時に発話している
    ...

✨ 主な機能

音声データ内の重複する話者を検出します。
pyannote.audio 2.1に依存しており、最新の技術を活用しています。

📦 インストール

このモデルを使用するには、pyannote.audio 2.1をインストールする必要があります。詳細なインストール手順はこちらを参照してください。

💻 使用例

基本的な使用法

# 1. hf.co/pyannote/segmentationにアクセスし、ユーザー条件を承認する
# 2. hf.co/settings/tokensにアクセスし、アクセストークンを作成する
# 3. 事前学習済みの重複話者検出パイプラインをインスタンス化する
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/overlapped-speech-detection",
                                    use_auth_token="ACCESS_TOKEN_GOES_HERE")
output = pipeline("audio.wav")

for speech in output.get_timeline().support():
    # speech.startとspeech.endの間で2人以上の話者が同時に発話している
    ...

📚 ドキュメント

サポート

商用利用の問い合わせや科学的なコンサルティングについては、こちらまでお問い合わせください。
技術的な質問やバグ報告については、pyannote.audioのGitHubリポジトリを確認してください。

引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

⚠️ 重要提示

収集された情報は、pyannote.audioのユーザーベースに関するより良い知識を獲得し、そのメンテナがさらなる改善のための助成金を申請するのに役立ちます。学術研究者の場合は、モデルを使用して独自の出版物で関連する論文を引用してください。企業で働いている場合は、pyannote.audioの開発に貢献することを検討してください（例：無制限の寄付を通じて）。また、話者分離や機械聴取に関する科学的なコンサルティングサービスも提供しています。