🚀 語音活動檢測
本項目基於pyannote.audio
實現語音活動檢測功能,藉助先進的技術和開源模型,為音頻處理領域提供了高效、準確的解決方案。它能有效識別音頻中的語音活動,在語音識別、音頻分析等場景中具有重要價值。
🚀 快速開始
若要在生產環境中使用此開源模型,可考慮切換至 pyannoteAI,以獲取更優質、更快速的選擇。
本模型依賴於 pyannote.audio 2.1,請參考 安裝說明 進行安裝。
💻 使用示例
基礎用法
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/voice-activity-detection",
use_auth_token="ACCESS_TOKEN_GOES_HERE")
output = pipeline("audio.wav")
for speech in output.get_timeline().support():
...
📄 許可證
本項目採用 MIT 許可證。
🔖 引用
如果您在研究中使用了本模型,請引用以下論文:
@inproceedings{Bredin2021,
Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
Booktitle = {Proc. Interspeech 2021},
Address = {Brno, Czech Republic},
Month = {August},
Year = {2021},
}
@inproceedings{Bredin2020,
Title = {{pyannote.audio: neural building blocks for speaker diarization}},
Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
Address = {Barcelona, Spain},
Month = {May},
Year = {2020},
}
⚠️ 重要提示
收集的信息將有助於更好地瞭解 pyannote.audio 用戶群體,並幫助其維護者申請資助以進一步改進。如果您是學術研究人員,請在自己的出版物中引用相關論文。如果您為公司工作,請考慮為 pyannote.audio 的開發做出貢獻(例如通過無限制捐贈)。我們還圍繞說話人分割和機器聽覺提供科學諮詢服務。
💡 使用建議
在使用模型前,請確保您已完成以下步驟:
- 訪問 hf.co/pyannote/segmentation 並接受用戶條件。
- 訪問 hf.co/settings/tokens 創建訪問令牌。
📦 數據集
本模型在以下數據集上進行訓練:
屬性 |
詳情 |
訓練數據 |
ami、dihard、voxconverse |
🏷️ 標籤
- pyannote
- pyannote-audio
- pyannote-audio-pipeline
- audio
- voice
- speech
- speaker
- voice-activity-detection
- automatic-speech-recognition