speaker-segmentation開源說話人分割模型 - 檢測音頻說話人變化與語音活動

首頁

Speaker Segmentation

由pyannote開發

基於pyannote.audio的說話人分割模型，用於檢測音頻中的說話人變化和語音活動

說話人處理開源協議:MIT #說話人分割 #重疊語音檢測 #端到端模型

下載量 182

發布時間 : 3/2/2022

模型概述

該模型專注於說話人分割任務，能夠識別音頻中不同說話人的語音片段，但不處理說話人日誌（speaker diarization）。

模型特點

端到端說話人分割

支持端到端的說話人分割處理，能夠識別音頻中的說話人變化

重疊語音檢測

能夠檢測重疊的語音片段

語音活動檢測

可識別音頻中的語音活動區域

模型能力

說話人變化檢測

語音活動檢測

重疊語音檢測

音頻分割

使用案例

語音分析

會議記錄分析

分析會議錄音中的不同發言者片段

可準確分割不同發言者的語音片段

訪談轉錄

為訪談錄音分割不同說話人的語音

便於後續的轉錄和內容分析

🚀 🎹 說話人分割

本項目基於 pyannote.audio 實現說話人分割功能，能夠對音頻中的不同說話人進行有效分割。藉助該模型，可在音頻處理、語音識別等領域發揮重要作用。

🚀 快速開始

若要在生產環境中使用此開源模型，可考慮切換至 pyannoteAI 以獲取更優更快的選擇。

本模型依賴於 pyannote.audio 2.1，請參考安裝說明進行安裝。

💻 使用示例

基礎用法

# 1. 訪問 hf.co/pyannote/segmentation 並接受用戶條款
# 2. 訪問 hf.co/settings/tokens 創建訪問令牌
# 3. 實例化預訓練的說話人分割管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-segmentation")
output = pipeline("audio.wav")

for turn, _, speaker in output.itertracks(yield_label=True):
    # 說話人在 turn.start 和 turn.end 之間說話
    ...

⚠️ 此管道不處理說話人日記化。

📚 詳細文檔

支持

商業諮詢和科學諮詢，請聯繫我。
技術問題請查看技術問題討論，bug 報告請查看 bug 報告，更多內容請參考 pyannote.audio 的 Github 倉庫。

引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}

標籤和數據集

屬性	詳情
標籤	pyannote、pyannote-audio、pyannote-audio-pipeline、audio、voice、speech、speaker、speaker-segmentation、speaker-diarization、speaker-change-detection、voice-activity-detection、overlapped-speech-detection、automatic-speech-recognition
數據集	ami、dihard、voxconverse

許可證

本項目採用 MIT 許可證。

額外提示

⚠️ 重要提示

收集的信息將有助於更好地瞭解 pyannote.audio 的用戶群體，並幫助其維護者申請資助以進一步改進它。如果您是學術研究人員，請在自己的出版物中引用相關論文。如果您為公司工作，請考慮為 pyannote.audio 的開發做出貢獻（例如，通過無限制捐贈）。我們還提供圍繞說話人日記化和機器聽覺的科學諮詢服務。