VAD開源語音活動檢測模型 - 免費使用精準識別音頻有效語音段

首頁

Vad

由salmanshahid開發

基於pyannote.audio的語音活動檢測模型，用於識別音頻中的有效語音段

語音識別開源協議:MIT #語音活動檢測 #端到端分割 #會議場景優化

下載量 1,794

發布時間 : 11/16/2024

模型概述

該模型主要用於檢測音頻中的語音活動，能夠準確識別語音段的開始和結束時間點，適用於會議記錄、語音分析等場景。

模型特點

高精度語音段檢測

能夠準確識別音頻中的有效語音段，包括開始和結束時間點

端到端處理

採用端到端的神經網絡架構，簡化處理流程

會議場景優化

在AMI會議數據集等會議場景數據上表現良好

模型能力

語音活動檢測

語音段時間標記

會議音頻分析

使用案例

會議記錄

會議語音分段

自動檢測會議錄音中的語音段，便於後續分析和轉錄

準確標記各發言人的語音時間段

語音分析

語音活動統計

統計音頻中語音活動的時間分佈

提供語音活動的時間分佈數據

🚀 語音活動檢測模型

本項目是一個基於pyannote.audio的語音活動檢測模型，可用於識別音頻中的語音片段。它依賴於pyannote.audio 2.1，並提供了簡單易用的API，方便開發者集成到自己的項目中。

🚀 快速開始

使用此開源模型進行生產時，可考慮切換到 pyannoteAI 以獲得更好更快的選擇。

該模型依賴於pyannote.audio 2.1，請參考安裝說明進行安裝。

💻 使用示例

基礎用法

# 1. 訪問 hf.co/pyannote/segmentation 並接受用戶條件
# 2. 訪問 hf.co/settings/tokens 創建訪問令牌
# 3. 實例化預訓練的語音活動檢測管道

from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/voice-activity-detection",
                                    use_auth_token="ACCESS_TOKEN_GOES_HERE")
output = pipeline("audio.wav")

for speech in output.get_timeline().support():
    # 語音開始時間 speech.start 到結束時間 speech.end 之間為活躍語音
    ...

📚 詳細文檔

數據集

該模型在以下數據集上進行訓練：

屬性	詳情
訓練數據	ami、dihard、voxconverse

許可證

本項目採用 MIT 許可證。

額外的授權提示

收集的信息將有助於更好地瞭解pyannote.audio的用戶群體，並幫助其維護者申請資助以進一步改進它。如果您是學術研究人員，請在自己的出版物中引用相關論文。如果您為公司工作，請考慮為pyannote.audio的開發做出貢獻（例如，通過無限制捐贈）。我們還提供圍繞說話人分割和機器聽覺的科學諮詢服務。

額外的授權字段

公司/大學：文本輸入
網站：文本輸入
我計劃將此模型用於（任務、音頻數據類型等）：文本輸入

📄 引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}