高保真音频合成

# 高保真音频合成

Bigvgan 22khz 80band

BigVGAN是一种通过大规模训练实现的通用神经声码器，能够为语音合成等任务提供高质量的音频输出。

Bigvgan V2 44khz 128band 512x

BigVGAN是一种基于大规模训练的通用神经声码器，能够高质量地生成音频波形。

Bigvgan V2 44khz 128band 256x

BigVGAN是基于大规模训练的通用神经声码器，能够高质量地将梅尔频谱转换为波形音频。

Bigvgan V2 22khz 80band Fmax8k 256x

BigVGAN是基于大规模训练的通用神经声码器，能够高质量地将梅尔频谱转换为波形。v2版本通过定制CUDA内核加速推理，并扩展了训练数据多样性。

Bigvgan V2 22khz 80band 256x

BigVGAN是基于大规模训练的通用神经声码器，能够从梅尔频谱生成高质量音频波形。

Bigvgan V2 24khz 100band 256x

BigVGAN是一种高性能神经声码器，通过大规模训练实现高质量的音频合成，支持多种采样率和频带配置。

Tango 2是基于Tango改进的文本生成音频模型，通过DPO对齐训练优化音频生成质量

Transformers 英语

Musicgen Stereo Melody

MusicGen是一款由Meta AI开发的文本生成音乐模型，能够根据文本描述或音频提示生成高质量立体声音乐样本。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase