voice-activity-detection開源語音檢測模型 - 精準識別音頻中語音活動時間段

首頁

Voice Activity Detection

由pyannote開發

基於pyannote.audio 2.1版本的語音活動檢測模型，用於識別音頻中的語音活動時間段

語音識別開源協議:MIT #語音活動檢測 #說話人分割 #重疊語音處理

下載量 7.7M

發布時間 : 3/2/2022

模型概述

該模型主要用於檢測音頻中的語音活動，能夠準確識別語音段的開始和結束時間，適用於語音處理流程中的預處理步驟

模型特點

高精度語音檢測

能夠準確檢測音頻中的語音活動時間段

端到端處理

提供完整的端到端語音活動檢測解決方案

易於集成

提供簡單的Python接口，便於集成到現有系統中

模型能力

語音活動檢測

音頻時間標記

語音/非語音分類

使用案例

語音處理

自動語音識別預處理

在ASR系統前檢測語音活動，提高識別效率

減少非語音段的處理開銷

會議記錄分析

標記會議錄音中的發言時間段

便於後續發言者分析和內容提取

🚀 語音活動檢測

本項目基於pyannote.audio實現語音活動檢測功能，藉助先進的技術和開源模型，為音頻處理領域提供了高效、準確的解決方案。它能有效識別音頻中的語音活動，在語音識別、音頻分析等場景中具有重要價值。

🚀 快速開始

若要在生產環境中使用此開源模型，可考慮切換至 pyannoteAI，以獲取更優質、更快速的選擇。

本模型依賴於 pyannote.audio 2.1，請參考安裝說明進行安裝。

💻 使用示例

基礎用法

# 1. 訪問 hf.co/pyannote/segmentation 並接受用戶條件
# 2. 訪問 hf.co/settings/tokens 創建訪問令牌
# 3. 實例化預訓練的語音活動檢測管道

from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/voice-activity-detection",
                                    use_auth_token="ACCESS_TOKEN_GOES_HERE")
output = pipeline("audio.wav")

for speech in output.get_timeline().support():
    # 語音開始時間 speech.start 到結束時間 speech.end 之間為有效語音
    ...

📄 許可證

本項目採用 MIT 許可證。

🔖 引用

如果您在研究中使用了本模型，請引用以下論文：

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}

⚠️ 重要提示

收集的信息將有助於更好地瞭解 pyannote.audio 用戶群體，並幫助其維護者申請資助以進一步改進。如果您是學術研究人員，請在自己的出版物中引用相關論文。如果您為公司工作，請考慮為 pyannote.audio 的開發做出貢獻（例如通過無限制捐贈）。我們還圍繞說話人分割和機器聽覺提供科學諮詢服務。