🚀 用于语音(发声)质量分类的Whisper Large v3
本模型基于OpenAI的Whisper Large v3,可用于语音质量分类,能有效识别多种语音特征,为语音相关研究和应用提供了有力支持。
🚀 快速开始
下载仓库
git clone git@github.com:tiantiaf0627/vox-profile-release.git
安装依赖包
conda create -n vox_profile python=3.8
cd vox-profile-release
pip install -e .
加载模型
import torch
import torch.nn.functional as F
from src.model.voice_quality.whisper_voice_quality import WhisperWrapper
device = torch.device("cuda") if torch.cuda.is_available() else "cpu"
model = WhisperWrapper.from_pretrained("tiantiaf/whisper-large-v3-voice-quality").to(device)
model.eval()
进行预测
voice_quality_label_list = [
'shrill', 'nasal', 'deep',
'silky', 'husky', 'raspy', 'guttural', 'vocal-fry',
'booming', 'authoritative', 'loud', 'hushed', 'soft',
'crisp', 'slurred', 'lisp', 'stammering',
'singsong', 'pitchy', 'flowing', 'monotone', 'staccato', 'punctuated', 'enunciated', 'hesitant',
]
max_audio_length = 15 * 16000
data = torch.zeros([1, 16000]).float().to(device)[:, :max_audio_length]
logits = model(
data, return_feature=False
)
voice_quality_prob = nn.Sigmoid()(torch.tensor(logits))
voice_label = list()
threshold = 0.7
predictions = (voice_quality_prob > threshold).int().detach().cpu().numpy()[0].tolist()
for label_idx in range(len(predictions)):
if predictions[label_idx] == 1: voice_label.append(voice_quality_label_list[label_idx])
print(voice_label)
✨ 主要特性
- 模型实现:本模型包含了在Vox - Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits (https://arxiv.org/pdf/2505.14648) 中描述的语音质量分类的实现。
- 评估指标:具体报告说话者级别的Macro - F1分数。随机为每个说话者采样五个话语,并将此分层过程重复20次。说话者级别的分数计算为所有说话者的平均Macro - F1。最后报告VoxCeleb和Expresso之间说话者级Macro - F1分数的未加权平均值。
- 特殊说明:由于ParaSpeechCaps数据集中EARS的保留集样本数量有限,因此将其排除。
- 标签涵盖:涵盖了音高、音质、音量、清晰度和节奏等多个方面的标签,具体如下:
[
'shrill', 'nasal', 'deep', # Pitch
'silky', 'husky', 'raspy', 'guttural', 'vocal-fry', # Texture
'booming', 'authoritative', 'loud', 'hushed', 'soft', # Volume
'crisp', 'slurred', 'lisp', 'stammering', # Clarity
'singsong', 'pitchy', 'flowing', 'monotone', 'staccato', 'punctuated', 'enunciated', 'hesitant', # Rhythm
]
- 相关库:可访问https://github.com/tiantiaf0627/vox-profile-release 获取相关库。
📚 详细文档
模型描述
本模型基于OpenAI的openai/whisper-large-v3
基础模型,在ajd12342/paraspeechcaps
数据集上进行训练,用于音频分类任务。
信息表格
属性 |
详情 |
模型类型 |
用于语音(发声)质量分类的Whisper Large v3 |
基础模型 |
openai/whisper-large-v3 |
训练数据集 |
ajd12342/paraspeechcaps |
评估指标 |
准确率、说话者级别的Macro - F1分数 |
管道标签 |
音频分类 |
引用说明
如果您使用了我们的模型或在您的工作中发现它很有用,请引用我们的论文:
@article{feng2025vox,
title={Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits},
author={Feng, Tiantian and Lee, Jihwan and Xu, Anfeng and Lee, Yoonjeong and Lertpetchpun, Thanathai and Shi, Xuan and Wang, Helin and Thebaud, Thomas and Moro-Velazquez, Laureano and Byrd, Dani and others},
journal={arXiv preprint arXiv:2505.14648},
year={2025}
}
联系方式
如果您有任何问题,请联系:Tiantian Feng (tiantiaf@usc.edu)
📄 许可证
本模型采用BSD 2 - 条款许可证。