🚀 話者セグメンテーション
このオープンソースモデルは、話者の音声をセグメント化するためのものです。音声データから話者の切り替わりを検出し、各話者の発話区間を特定します。
🚀 クイックスタート
このモデルはpyannote.audio 2.1
に依存しています。インストール手順を参照してください。
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-segmentation")
output = pipeline("audio.wav")
for turn, _, speaker in output.itertracks(yield_label=True):
...
⚠️ 重要提示
このパイプラインは話者分離には対応していません。
✨ 主な機能
- 話者セグメンテーション: 音声データから話者の切り替わりを検出し、各話者の発話区間を特定します。
- 依存ライブラリ: pyannote.audio 2.1を使用しています。
📦 インストール
このモデルはpyannote.audio 2.1
に依存しています。インストール手順を参照してください。
💻 使用例
基本的な使用法
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-segmentation")
output = pipeline("audio.wav")
for turn, _, speaker in output.itertracks(yield_label=True):
...
📚 ドキュメント
サポート
引用
@inproceedings{Bredin2021,
Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
Booktitle = {Proc. Interspeech 2021},
Address = {Brno, Czech Republic},
Month = {August},
Year = {2021},
@inproceedings{Bredin2020,
Title = {{pyannote.audio: neural building blocks for speaker diarization}},
Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
Address = {Barcelona, Spain},
Month = {May},
Year = {2020},
}
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
追加情報
商用利用でこのオープンソースモデルを使用する場合は、より良いオプションを提供するpyannoteAIを検討してください。
データセット
タグ
- pyannote
- pyannote-audio
- pyannote-audio-pipeline
- audio
- voice
- speech
- speaker
- speaker-segmentation
- speaker-diarization
- speaker-change-detection
- voice-activity-detection
- overlapped-speech-detection
- automatic-speech-recognition
ゲート付きモデルの追加情報
収集された情報は、pyannote.audioのユーザーベースに関するより良い知識を得るのに役立ち、そのメンテナーがさらに改善するための助成金を申請するのに役立ちます。学術研究者の場合は、モデルを使用して独自の出版物で関連する論文を引用してください。企業で働いている場合は、pyannote.audioの開発に貢献することを検討してください(例:無制限の寄付を通じて)。また、話者分離や機械聴取に関する科学的なコンサルティングサービスも提供しています。
属性 |
详情 |
会社/大学 |
テキスト |
ウェブサイト |
テキスト |
このモデルを使用する予定(タスク、音声データの種類など) |
テキスト |