语音合成

2025年最佳的 610 个语音合成工具

Kokoro是一款拥有8200万参数的开源文本转语音（TTS）模型，以其轻量级架构和高音质著称，同时具备快速和成本效益高的特点。

语音合成英语

ⓍTTS是一款革命性的语音生成模型，仅需6秒音频片段即可实现跨语言音色克隆，支持17种语言。

F5-TTS 是一个基于流匹配的语音合成模型，专注于流畅且忠实的语音合成，特别适用于童话讲述等场景。

Bigvgan V2 22khz 80band 256x

BigVGAN是基于大规模训练的通用神经声码器，能够从梅尔频谱生成高质量音频波形。

基于LibriTTS数据集微调的SpeechT5语音合成(文本转语音)模型，支持高质量的文本转语音转换。

Dia是由Nari实验室开发的16亿参数文本转语音模型，能够直接从文本生成高度逼真的对话，支持情感和语调控制，并能生成非语言交流内容。

Safetensors 英语

CSM是Sesame开发的10亿参数规模语音生成模型，可根据文本和音频输入生成RVQ音频编码

Safetensors 英语

Kokoro 82M V1.1 Zh

Kokoro 是一个开放权重的小型但功能强大的文本转语音（TTS）模型系列，新增了来自专业数据集的100名中文说话人数据。

Indic Parler Tts

Indic Parler-TTS 是 Parler-TTS Mini 的多语言印度语言扩展版本，支持21种语言，包括多种印度语言和英语。

Transformers 支持多种语言

Bark是由Suno创建的基于Transformer的文本转音频模型，能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。

Transformers 支持多种语言

F5-TTS 是一个完全非自回归的零样本文本转语音模型，支持高质量的语音合成。

XCodec2是一款支持多语言语音语义理解与高质量语音重建的语音标记器

Parler Tts Large V1

拥有22亿参数的文本转语音模型，基于4.5万小时音频数据训练，支持通过文本提示控制语音特征

Transformers 英语

Meta开发的英语文本转语音模型，基于VITS架构，支持高质量语音合成

Bark是由Suno开发的基于Transformer的多语言文本转音频模型，能生成逼真语音、音乐及非语言声音

Transformers 支持多种语言

Meta公司开发的支持约鲁巴语的文本转语音模型，基于VITS架构实现高质量的语音合成

Parler Tts Mini V1

轻量级文本转语音模型，基于4.5万小时音频训练，支持通过文本提示控制语音特征

Transformers 英语

Orpheus 3b 0.1 Ft Q4 K M GGUF

Orpheus-TTS是一个轻量级文本转语音模型，支持在本地运行，提供高质量的语音合成功能。

语音合成英语

这是一个RVC（Retrieval-based Voice Conversion）模型，用于音频转音频任务，可将输入音频转换为特定风格的输出音频。

Homersimpson2333333

这是一个基于RVC（Retrieval-Based Voice Conversion）技术的语音转换模型，能够将输入音频转换为荷马·辛普森风格的声音。

Freddie Mercury RVC 700 Epochs

这是一个基于RVC（Retrieval-based Voice Conversion）技术的语音转换模型，经过700轮训练，能够将输入音频转换为弗雷迪·墨丘利风格的语音。

Lana Del Rey E1000 S13000

这是一个基于RVC（Retrieval-based Voice Conversion）技术的语音转换模型，能够将输入音频转换为特定风格的语音。

Adele RVC 400 Epochs

这是一个基于RVC（Retrieval-based Voice Conversion）技术的语音转换模型，经过400轮训练，能够将输入音频转换为模仿阿黛尔音色的输出音频。

这是一个基于RVC架构的音频转音频模型，专门用于处理XXXTentacion风格的语音转换。

Xphonebert Base

XPhoneBERT是首个面向文本转语音(TTS)的音素表征预训练多语言模型，基于BERT-base架构，使用近100种语言的3.3亿条音素级句子训练。

IndicF5是一个基于1417小时高质量语音数据训练的接近人类的多语言文本转语音(TTS)模型，支持11种印度语言。

语音合成其他

这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型，能够将输入音频转换为迈克尔·杰克逊风格的语音。

这是一个基于RVC（Retrieval-based Voice Conversion）技术的语音转换模型，可以将源语音转换为目标语音风格。

Eminem E600 S5400

这是一个基于RVC（Retrieval-Based Voice Conversion）技术的语音转换模型，能够将输入音频转换为特定风格的语音输出。

ⓍTTS 是一款语音生成模型，仅需6秒的音频片段即可克隆声音并应用于不同语言。

Parler Tts Mini V0.1

Parler-TTS Mini 是一个轻量级的文本转语音模型，基于10.5K小时音频数据训练，支持通过文本提示控制语音特征。

Transformers 英语

Ariana Grande RVC V1

这是一个基于RVC（Retrieval-Based Voice Conversion）技术的语音转换模型，能够将输入音频转换为爱莉安娜·格兰德风格的语音。

鱼语语音 V1.5 是一款领先的文本转语音（TTS）模型，基于超过100万小时的多语言音频数据训练而成。

语音合成支持多种语言

CSM是由Sesame开发的1B参数语音生成模型，可通过文本和音频输入生成RVQ音频编码，支持带上下文的语音生成。

Safetensors 英语

Drake_RVC 是一个基于 RVC (Retrieval-based Voice Conversion) 技术的音频转音频模型，专门用于语音转换任务。

HiFiGAN是一种生成对抗网络(GAN)模型，能够从梅尔频谱图生成高质量音频，适用于文本转语音系统。

语音合成英语

这是一个RVC（Retrieval-based Voice Conversion）模型，用于音频到音频的转换任务。

这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型，能够将输入音频转换为模仿比莉·艾利什声音的输出音频。

Tts En Fastpitch

FastPitch是一种完全并行的Transformer架构文本转语音模型，能够控制音高和音素持续时间，生成高质量的英语美式语音。

语音合成英语

Meta公司开发的法语文本转语音模型，基于VITS架构，支持高质量语音合成

这是一个基于RVC（Retrieval-Based Voice Conversion）技术的音频转换模型，专门用于将输入音频转换为贾斯汀·比伯（Justin Bieber）风格的语音。

Frank Sinatra 51600 Steps 250 Epochs RVC

这是一个基于RVC框架的音频转音频模型，专门用于声音转换任务。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase