Kokoro 82M
Apache-2.0
Kokoro是一款拥有8200万参数的开源文本转语音(TTS)模型,以其轻量级架构和高音质著称,同时具备快速和成本效益高的特点。
语音合成 英语
K
hexgrad
2.0M
4,155
XTTS V2
其他
ⓍTTS是一款革命性的语音生成模型,仅需6秒音频片段即可实现跨语言音色克隆,支持17种语言。
语音合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTS 是一个基于流匹配的语音合成模型,专注于流畅且忠实的语音合成,特别适用于童话讲述等场景。
语音合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGAN是基于大规模训练的通用神经声码器,能够从梅尔频谱生成高质量音频波形。
语音合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
基于LibriTTS数据集微调的SpeechT5语音合成(文本转语音)模型,支持高质量的文本转语音转换。
语音合成
Transformers

S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
Dia是由Nari实验室开发的16亿参数文本转语音模型,能够直接从文本生成高度逼真的对话,支持情感和语调控制,并能生成非语言交流内容。
语音合成
Safetensors 英语
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSM是Sesame开发的10亿参数规模语音生成模型,可根据文本和音频输入生成RVQ音频编码
语音合成
Safetensors 英语
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoro 是一个开放权重的小型但功能强大的文本转语音(TTS)模型系列,新增了来自专业数据集的100名中文说话人数据。
语音合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS 是 Parler-TTS Mini 的多语言印度语言扩展版本,支持21种语言,包括多种印度语言和英语。
语音合成
Transformers 支持多种语言

I
ai4bharat
43.59k
124
Bark
MIT
Bark是由Suno创建的基于Transformer的文本转音频模型,能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。
语音合成
Transformers 支持多种语言

B
suno
35.72k
1,326
E2 TTS
F5-TTS 是一个完全非自回归的零样本文本转语音模型,支持高质量的语音合成。
语音合成
E
SWivid
32.58k
48
Xcodec2
XCodec2是一款支持多语言语音语义理解与高质量语音重建的语音标记器
语音合成
X
HKUSTAudio
32.36k
67
Parler Tts Large V1
Apache-2.0
拥有22亿参数的文本转语音模型,基于4.5万小时音频数据训练,支持通过文本提示控制语音特征
语音合成
Transformers 英语

P
parler-tts
28.69k
252
Mms Tts Eng
Meta开发的英语文本转语音模型,基于VITS架构,支持高质量语音合成
语音合成
Transformers

M
facebook
28.60k
146
Bark Small
MIT
Bark是由Suno开发的基于Transformer的多语言文本转音频模型,能生成逼真语音、音乐及非语言声音
语音合成
Transformers 支持多种语言

B
suno
22.74k
201
Mms Tts Yor
Meta公司开发的支持约鲁巴语的文本转语音模型,基于VITS架构实现高质量的语音合成
语音合成
Transformers

M
facebook
17.88k
19
Parler Tts Mini V1
Apache-2.0
轻量级文本转语音模型,基于4.5万小时音频训练,支持通过文本提示控制语音特征
语音合成
Transformers 英语

P
parler-tts
14.16k
143
Orpheus 3b 0.1 Ft Q4 K M GGUF
Apache-2.0
Orpheus-TTS是一个轻量级文本转语音模型,支持在本地运行,提供高质量的语音合成功能。
语音合成 英语
O
isaiahbjork
13.43k
48
Bruce
这是一个RVC(Retrieval-based Voice Conversion)模型,用于音频转音频任务,可将输入音频转换为特定风格的输出音频。
语音合成
Transformers

B
sail-rvc
11.79k
0
Homersimpson2333333
这是一个基于RVC(Retrieval-Based Voice Conversion)技术的语音转换模型,能够将输入音频转换为荷马·辛普森风格的声音。
语音合成
Transformers

H
sail-rvc
11.36k
1
Freddie Mercury RVC 700 Epochs
这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型,经过700轮训练,能够将输入音频转换为弗雷迪·墨丘利风格的语音。
语音合成
Transformers

F
sail-rvc
8,750
1
Lana Del Rey E1000 S13000
这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型,能够将输入音频转换为特定风格的语音。
语音合成
Transformers

L
sail-rvc
8,707
1
Adele RVC 400 Epochs
这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型,经过400轮训练,能够将输入音频转换为模仿阿黛尔音色的输出音频。
语音合成
Transformers

A
sail-rvc
8,267
0
Xxxtentacion
这是一个基于RVC架构的音频转音频模型,专门用于处理XXXTentacion风格的语音转换。
语音合成
Transformers

X
sail-rvc
7,984
0
Xphonebert Base
MIT
XPhoneBERT是首个面向文本转语音(TTS)的音素表征预训练多语言模型,基于BERT-base架构,使用近100种语言的3.3亿条音素级句子训练。
语音合成
Transformers

X
vinai
7,561
15
Indicf5
IndicF5是一个基于1417小时高质量语音数据训练的接近人类的多语言文本转语音(TTS)模型,支持11种印度语言。
语音合成 其他
I
ai4bharat
6,595
37
Michaeljackson
这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型,能够将输入音频转换为迈克尔·杰克逊风格的语音。
语音合成
Transformers

M
sail-rvc
6,250
0
Shrek
这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型,可以将源语音转换为目标语音风格。
语音合成
Transformers

S
sail-rvc
5,919
2
Eminem E600 S5400
这是一个基于RVC(Retrieval-Based Voice Conversion)技术的语音转换模型,能够将输入音频转换为特定风格的语音输出。
语音合成
Transformers

E
sail-rvc
5,639
1
XTTS V1
其他
ⓍTTS 是一款语音生成模型,仅需6秒的音频片段即可克隆声音并应用于不同语言。
语音合成
X
coqui
5,449
369
Parler Tts Mini V0.1
Apache-2.0
Parler-TTS Mini 是一个轻量级的文本转语音模型,基于10.5K小时音频数据训练,支持通过文本提示控制语音特征。
语音合成
Transformers 英语

P
parler-tts
5,430
352
Ariana Grande RVC V1
这是一个基于RVC(Retrieval-Based Voice Conversion)技术的语音转换模型,能够将输入音频转换为爱莉安娜·格兰德风格的语音。
语音合成
Transformers

A
sail-rvc
5,404
2
F15
鱼语语音 V1.5 是一款领先的文本转语音(TTS)模型,基于超过100万小时的多语言音频数据训练而成。
语音合成 支持多种语言
F
cocktailpeanut
5,162
0
Csm 1b
Apache-2.0
CSM是由Sesame开发的1B参数语音生成模型,可通过文本和音频输入生成RVQ音频编码,支持带上下文的语音生成。
语音合成
Safetensors 英语
C
eustlb
5,144
3
Drake RVC
Drake_RVC 是一个基于 RVC (Retrieval-based Voice Conversion) 技术的音频转音频模型,专门用于语音转换任务。
语音合成
Transformers

D
sail-rvc
5,043
1
Tts Hifigan
HiFiGAN是一种生成对抗网络(GAN)模型,能够从梅尔频谱图生成高质量音频,适用于文本转语音系统。
语音合成 英语
T
nvidia
5,022
36
Alvin
这是一个RVC(Retrieval-based Voice Conversion)模型,用于音频到音频的转换任务。
语音合成
Transformers

A
sail-rvc
4,909
0
Billie Eilish
这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型,能够将输入音频转换为模仿比莉·艾利什声音的输出音频。
语音合成
Transformers

B
sail-rvc
4,899
2
Tts En Fastpitch
FastPitch是一种完全并行的Transformer架构文本转语音模型,能够控制音高和音素持续时间,生成高质量的英语美式语音。
语音合成 英语
T
nvidia
4,701
38
Mms Tts Fra
Meta公司开发的法语文本转语音模型,基于VITS架构,支持高质量语音合成
语音合成
Transformers

M
facebook
4,667
8
Justinbiebermw
这是一个基于RVC(Retrieval-Based Voice Conversion)技术的音频转换模型,专门用于将输入音频转换为贾斯汀·比伯(Justin Bieber)风格的语音。
语音合成
Transformers

J
sail-rvc
4,656
0
Frank Sinatra 51600 Steps 250 Epochs RVC
这是一个基于RVC框架的音频转音频模型,专门用于声音转换任务。
语音合成
Transformers

F
sail-rvc
4,590
0
- 1
- 2
- 3
- 4
- 5
- 6
- 10