speaker - segmentationオープンソース話者分割モデル - 音声の話者変化と音声活動を検出する

ホーム

Speaker Segmentation

pyannoteによって開発

pyannote.audioに基づく話者分割モデルで、音声中の話者の変化と音声活動を検出するために使用されます。

話者の処理オープンソースライセンス:MIT #話者分割 #重複音声検出 #エンドツーエンドモデル

ダウンロード数 182

リリース時間 : 3/2/2022

モデル概要

このモデルは話者分割タスクに特化しており、音声中の異なる話者の音声セグメントを識別できますが、話者ログ（speaker diarization）は処理しません。

モデル特徴

エンドツーエンドの話者分割

エンドツーエンドの話者分割処理をサポートし、音声中の話者の変化を識別できます。

重複音声検出

重複する音声セグメントを検出できます。

音声活動検出

音声中の音声活動領域を識別できます。

モデル能力

話者の変化検出

音声活動検出

重複音声検出

音声分割

使用事例

音声分析

会議記録分析

会議録音中の異なる発言者のセグメントを分析します。

異なる発言者の音声セグメントを正確に分割できます。

インタビューの文字起こし

インタビュー録音を異なる話者の音声に分割します。

後続の文字起こしと内容分析を容易にします。

🚀 話者セグメンテーション

このオープンソースモデルは、話者の音声をセグメント化するためのものです。音声データから話者の切り替わりを検出し、各話者の発話区間を特定します。

🚀 クイックスタート

このモデルはpyannote.audio 2.1に依存しています。インストール手順を参照してください。

# 1. hf.co/pyannote/segmentationにアクセスし、ユーザー条件に同意する
# 2. hf.co/settings/tokensにアクセスし、アクセストークンを作成する
# 3. 事前学習済みの話者セグメンテーションパイプラインをインスタンス化する
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-segmentation")
output = pipeline("audio.wav")

for turn, _, speaker in output.itertracks(yield_label=True):
    # 話者はturn.startとturn.endの間に発話する
    ...

⚠️ 重要提示

このパイプラインは話者分離には対応していません。

✨ 主な機能

話者セグメンテーション: 音声データから話者の切り替わりを検出し、各話者の発話区間を特定します。
依存ライブラリ: pyannote.audio 2.1を使用しています。

📦 インストール

このモデルはpyannote.audio 2.1に依存しています。インストール手順を参照してください。

💻 使用例

基本的な使用法

# 1. visit hf.co/pyannote/segmentation and accept user conditions
# 2. visit hf.co/settings/tokens to create an access token
# 3. instantiate pretrained speaker segmentation pipeline
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-segmentation")
output = pipeline("audio.wav")

for turn, _, speaker in output.itertracks(yield_label=True):
    # speaker speaks between turn.start and turn.end
    ...

📚 ドキュメント

サポート

商用利用のお問い合わせや科学的なコンサルティングについては、こちらまでご連絡ください。
技術的な質問やバグ報告については、pyannote.audioのGitHubリポジトリを確認してください。

引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

追加情報

商用利用でこのオープンソースモデルを使用する場合は、より良いオプションを提供するpyannoteAIを検討してください。

データセット

ami
dihard
voxconverse

ゲート付きモデルの追加情報

収集された情報は、pyannote.audioのユーザーベースに関するより良い知識を得るのに役立ち、そのメンテナーがさらに改善するための助成金を申請するのに役立ちます。学術研究者の場合は、モデルを使用して独自の出版物で関連する論文を引用してください。企業で働いている場合は、pyannote.audioの開発に貢献することを検討してください（例：無制限の寄付を通じて）。また、話者分離や機械聴取に関する科学的なコンサルティングサービスも提供しています。

属性	详情
会社/大学	テキスト
ウェブサイト	テキスト
このモデルを使用する予定（タスク、音声データの種類など）	テキスト