Overlapped-Speech-Detection開源模型 - 精準檢測音頻中多人同時說話時段

首頁

Overlapped Speech Detection

由pyannote開發

一個用於檢測音頻中重疊語音的預訓練模型，能夠識別兩個或更多說話人同時活躍的時間段。

說話人處理開源協議:MIT #重疊語音檢測 #說話人分割 #端到端模型

下載量 144.68k

發布時間 : 3/2/2022

模型概述

該模型主要用於檢測音頻中的重疊語音部分，即兩個或更多說話人同時說話的片段。適用於語音處理、說話人日誌等任務。

模型特點

重疊語音檢測

準確識別音頻中兩個或更多說話人同時活躍的時間段

端到端訓練

採用端到端的訓練方式，直接從原始音頻學習特徵

預訓練模型

提供開箱即用的預訓練模型，無需從頭訓練

模型能力

重疊語音檢測

說話人分割

音頻時間線分析

使用案例

語音處理

會議記錄分析

分析會議錄音中的重疊對話部分，提高轉錄準確性

可識別多人同時發言的片段

說話人日誌

為說話人日誌系統提供重疊語音檢測功能

改善說話人分割的準確性

🚀 重疊語音檢測

本項目藉助 pyannote.audio 實現重疊語音檢測功能，可有效識別音頻中重疊的語音部分。通過開源模型，能在多種場景下進行重疊語音的檢測，為語音處理相關應用提供支持。

🚀 快速開始

若要在生產環境中使用此開源模型，可考慮切換到 pyannoteAI 以獲取更優更快的選擇。

本模型依賴 pyannote.audio 2.1，請參考安裝說明進行安裝。

💻 使用示例

基礎用法

# 1. 訪問 hf.co/pyannote/segmentation 並接受用戶條件
# 2. 訪問 hf.co/settings/tokens 創建訪問令牌
# 3. 實例化預訓練的重疊語音檢測管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/overlapped-speech-detection",
                                    use_auth_token="ACCESS_TOKEN_GOES_HERE")
output = pipeline("audio.wav")

for speech in output.get_timeline().support():
    # 在 speech.start 和 speech.end 之間有兩個或更多說話者處於活躍狀態
    ...

📚 詳細文檔

支持

商業諮詢和科學諮詢：請通過郵箱聯繫。
技術問題和錯誤報告：請查看 pyannote.audio 的 Github 倉庫，可在討論區提出技術問題，在問題反饋區提交錯誤報告。

引用

如果您使用了本模型，請按照以下格式引用相關論文：

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}

📄 許可證

本項目採用 MIT 許可證。

額外信息

收集的信息將有助於更好地瞭解 pyannote.audio 的用戶群體，並幫助維護者申請資助以進一步改進它。如果您是學術研究人員，請在自己的出版物中引用相關論文。如果您為公司工作，請考慮為 pyannote.audio 的開發做出貢獻（例如，通過無限制捐贈）。我們還圍繞說話人分割和機器聽覺提供科學諮詢服務。

屬性	詳情
標籤	pyannote、pyannote-audio、pyannote-audio-pipeline、audio、voice、speech、speaker、overlapped-speech-detection、automatic-speech-recognition
數據集	ami、dihard、voxconverse