B

Bigvgan 22khz 80band

由 nvidia 开发
BigVGAN是一种通过大规模训练实现的通用神经声码器,能够为语音合成等任务提供高质量的音频输出。
下载量 2,344
发布时间 : 7/15/2024

模型简介

BigVGAN是一种通用神经声码器,通过大规模训练实现高质量的音频生成,适用于语音合成等任务。

模型特点

大规模训练
通过大规模数据集训练,提供高质量的音频输出。
CUDA内核融合
实现抗锯齿激活的全融合CUDA内核,提高推理速度。
多采样率支持
支持高达44 kHz的采样率和512x的上采样率。
改进的判别器
使用多尺度子带CQT判别器和多尺度梅尔频谱图损失进行训练。

模型能力

高质量音频生成
语音合成
多采样率支持

使用案例

语音合成
文本到语音
将文本转换为自然语音
高质量的语音输出
音频增强
提升低质量音频的清晰度
改善的音频质量
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase