🚀 🎹 說話人分割
本項目基於 pyannote.audio
實現說話人分割功能,能夠對音頻中的不同說話人進行有效分割。藉助該模型,可在音頻處理、語音識別等領域發揮重要作用。
🚀 快速開始
若要在生產環境中使用此開源模型,可考慮切換至 pyannoteAI 以獲取更優更快的選擇。
本模型依賴於 pyannote.audio 2.1
,請參考 安裝說明 進行安裝。
💻 使用示例
基礎用法
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-segmentation")
output = pipeline("audio.wav")
for turn, _, speaker in output.itertracks(yield_label=True):
...
⚠️ 此管道不處理 說話人日記化。
📚 詳細文檔
支持
引用
@inproceedings{Bredin2021,
Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
Booktitle = {Proc. Interspeech 2021},
Address = {Brno, Czech Republic},
Month = {August},
Year = {2021},
@inproceedings{Bredin2020,
Title = {{pyannote.audio: neural building blocks for speaker diarization}},
Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
Address = {Barcelona, Spain},
Month = {May},
Year = {2020},
}
標籤和數據集
屬性 |
詳情 |
標籤 |
pyannote、pyannote-audio、pyannote-audio-pipeline、audio、voice、speech、speaker、speaker-segmentation、speaker-diarization、speaker-change-detection、voice-activity-detection、overlapped-speech-detection、automatic-speech-recognition |
數據集 |
ami、dihard、voxconverse |
許可證
本項目採用 MIT 許可證。
額外提示
⚠️ 重要提示
收集的信息將有助於更好地瞭解 pyannote.audio
的用戶群體,並幫助其維護者申請資助以進一步改進它。如果您是學術研究人員,請在自己的出版物中引用相關論文。如果您為公司工作,請考慮為 pyannote.audio
的開發做出貢獻(例如,通過無限制捐贈)。我們還提供圍繞說話人日記化和機器聽覺的科學諮詢服務。
💡 使用建議
請按照代碼示例中的步驟操作,確保先訪問相關頁面接受用戶條款並創建訪問令牌,以順利使用預訓練的說話人分割管道。