🚀 语音活动检测
本项目基于pyannote.audio
实现语音活动检测功能,借助先进的技术和开源模型,为音频处理领域提供了高效、准确的解决方案。它能有效识别音频中的语音活动,在语音识别、音频分析等场景中具有重要价值。
🚀 快速开始
若要在生产环境中使用此开源模型,可考虑切换至 pyannoteAI,以获取更优质、更快速的选择。
本模型依赖于 pyannote.audio 2.1,请参考 安装说明 进行安装。
💻 使用示例
基础用法
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/voice-activity-detection",
use_auth_token="ACCESS_TOKEN_GOES_HERE")
output = pipeline("audio.wav")
for speech in output.get_timeline().support():
...
📄 许可证
本项目采用 MIT 许可证。
🔖 引用
如果您在研究中使用了本模型,请引用以下论文:
@inproceedings{Bredin2021,
Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
Booktitle = {Proc. Interspeech 2021},
Address = {Brno, Czech Republic},
Month = {August},
Year = {2021},
}
@inproceedings{Bredin2020,
Title = {{pyannote.audio: neural building blocks for speaker diarization}},
Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
Address = {Barcelona, Spain},
Month = {May},
Year = {2020},
}
⚠️ 重要提示
收集的信息将有助于更好地了解 pyannote.audio 用户群体,并帮助其维护者申请资助以进一步改进。如果您是学术研究人员,请在自己的出版物中引用相关论文。如果您为公司工作,请考虑为 pyannote.audio 的开发做出贡献(例如通过无限制捐赠)。我们还围绕说话人分割和机器听觉提供科学咨询服务。
💡 使用建议
在使用模型前,请确保您已完成以下步骤:
- 访问 hf.co/pyannote/segmentation 并接受用户条件。
- 访问 hf.co/settings/tokens 创建访问令牌。
📦 数据集
本模型在以下数据集上进行训练:
属性 |
详情 |
训练数据 |
ami、dihard、voxconverse |
🏷️ 标签
- pyannote
- pyannote-audio
- pyannote-audio-pipeline
- audio
- voice
- speech
- speaker
- voice-activity-detection
- automatic-speech-recognition