Kokoro 82M
Apache-2.0
Kokoro是一款擁有8200萬參數的開源文本轉語音(TTS)模型,以其輕量級架構和高音質著稱,同時具備快速和成本效益高的特點。
語音合成 英語
K
hexgrad
2.0M
4,155
XTTS V2
其他
ⓍTTS是一款革命性的語音生成模型,僅需6秒音頻片段即可實現跨語言音色克隆,支持17種語言。
語音合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTS 是一個基於流匹配的語音合成模型,專注於流暢且忠實的語音合成,特別適用於童話講述等場景。
語音合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGAN是基於大規模訓練的通用神經聲碼器,能夠從梅爾頻譜生成高質量音頻波形。
語音合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
基於LibriTTS數據集微調的SpeechT5語音合成(文本轉語音)模型,支持高質量的文本轉語音轉換。
語音合成
Transformers

S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
Dia是由Nari實驗室開發的16億參數文本轉語音模型,能夠直接從文本生成高度逼真的對話,支持情感和語調控制,並能生成非語言交流內容。
語音合成
Safetensors 英語
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSM是Sesame開發的10億參數規模語音生成模型,可根據文本和音頻輸入生成RVQ音頻編碼
語音合成
Safetensors 英語
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoro 是一個開放權重的小型但功能強大的文本轉語音(TTS)模型系列,新增了來自專業數據集的100名中文說話人數據。
語音合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS 是 Parler-TTS Mini 的多語言印度語言擴展版本,支持21種語言,包括多種印度語言和英語。
語音合成
Transformers 支持多種語言

I
ai4bharat
43.59k
124
Bark
MIT
Bark是由Suno創建的基於Transformer的文本轉音頻模型,能生成高度逼真的多語言語音、音樂、背景噪音和簡單音效。
語音合成
Transformers 支持多種語言

B
suno
35.72k
1,326
E2 TTS
F5-TTS 是一個完全非自迴歸的零樣本文本轉語音模型,支持高質量的語音合成。
語音合成
E
SWivid
32.58k
48
Xcodec2
XCodec2是一款支持多語言語音語義理解與高質量語音重建的語音標記器
語音合成
X
HKUSTAudio
32.36k
67
Parler Tts Large V1
Apache-2.0
擁有22億參數的文本轉語音模型,基於4.5萬小時音頻數據訓練,支持通過文本提示控制語音特徵
語音合成
Transformers 英語

P
parler-tts
28.69k
252
Mms Tts Eng
Meta開發的英語文本轉語音模型,基於VITS架構,支持高質量語音合成
語音合成
Transformers

M
facebook
28.60k
146
Bark Small
MIT
Bark是由Suno開發的基於Transformer的多語言文本轉音頻模型,能生成逼真語音、音樂及非語言聲音
語音合成
Transformers 支持多種語言

B
suno
22.74k
201
Mms Tts Yor
Meta公司開發的支持約魯巴語的文本轉語音模型,基於VITS架構實現高質量的語音合成
語音合成
Transformers

M
facebook
17.88k
19
Parler Tts Mini V1
Apache-2.0
輕量級文本轉語音模型,基於4.5萬小時音頻訓練,支持通過文本提示控制語音特徵
語音合成
Transformers 英語

P
parler-tts
14.16k
143
Orpheus 3b 0.1 Ft Q4 K M GGUF
Apache-2.0
Orpheus-TTS是一個輕量級文本轉語音模型,支持在本地運行,提供高質量的語音合成功能。
語音合成 英語
O
isaiahbjork
13.43k
48
Bruce
這是一個RVC(Retrieval-based Voice Conversion)模型,用於音頻轉音頻任務,可將輸入音頻轉換為特定風格的輸出音頻。
語音合成
Transformers

B
sail-rvc
11.79k
0
Homersimpson2333333
這是一個基於RVC(Retrieval-Based Voice Conversion)技術的語音轉換模型,能夠將輸入音頻轉換為荷馬·辛普森風格的聲音。
語音合成
Transformers

H
sail-rvc
11.36k
1
Freddie Mercury RVC 700 Epochs
這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型,經過700輪訓練,能夠將輸入音頻轉換為弗雷迪·墨丘利風格的語音。
語音合成
Transformers

F
sail-rvc
8,750
1
Lana Del Rey E1000 S13000
這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型,能夠將輸入音頻轉換為特定風格的語音。
語音合成
Transformers

L
sail-rvc
8,707
1
Adele RVC 400 Epochs
這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型,經過400輪訓練,能夠將輸入音頻轉換為模仿阿黛爾音色的輸出音頻。
語音合成
Transformers

A
sail-rvc
8,267
0
Xxxtentacion
這是一個基於RVC架構的音頻轉音頻模型,專門用於處理XXXTentacion風格的語音轉換。
語音合成
Transformers

X
sail-rvc
7,984
0
Xphonebert Base
MIT
XPhoneBERT是首個面向文本轉語音(TTS)的音素表徵預訓練多語言模型,基於BERT-base架構,使用近100種語言的3.3億條音素級句子訓練。
語音合成
Transformers

X
vinai
7,561
15
Indicf5
IndicF5是一個基於1417小時高質量語音數據訓練的接近人類的多語言文本轉語音(TTS)模型,支持11種印度語言。
語音合成 其他
I
ai4bharat
6,595
37
Michaeljackson
這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型,能夠將輸入音頻轉換為邁克爾·傑克遜風格的語音。
語音合成
Transformers

M
sail-rvc
6,250
0
Shrek
這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型,可以將源語音轉換為目標語音風格。
語音合成
Transformers

S
sail-rvc
5,919
2
Eminem E600 S5400
這是一個基於RVC(Retrieval-Based Voice Conversion)技術的語音轉換模型,能夠將輸入音頻轉換為特定風格的語音輸出。
語音合成
Transformers

E
sail-rvc
5,639
1
XTTS V1
其他
ⓍTTS 是一款語音生成模型,僅需6秒的音頻片段即可克隆聲音並應用於不同語言。
語音合成
X
coqui
5,449
369
Parler Tts Mini V0.1
Apache-2.0
Parler-TTS Mini 是一個輕量級的文本轉語音模型,基於10.5K小時音頻數據訓練,支持通過文本提示控制語音特徵。
語音合成
Transformers 英語

P
parler-tts
5,430
352
Ariana Grande RVC V1
這是一個基於RVC(Retrieval-Based Voice Conversion)技術的語音轉換模型,能夠將輸入音頻轉換為愛莉安娜·格蘭德風格的語音。
語音合成
Transformers

A
sail-rvc
5,404
2
F15
魚語語音 V1.5 是一款領先的文本轉語音(TTS)模型,基於超過100萬小時的多語言音頻數據訓練而成。
語音合成 支持多種語言
F
cocktailpeanut
5,162
0
Csm 1b
Apache-2.0
CSM是由Sesame開發的1B參數語音生成模型,可通過文本和音頻輸入生成RVQ音頻編碼,支持帶上下文的語音生成。
語音合成
Safetensors 英語
C
eustlb
5,144
3
Drake RVC
Drake_RVC 是一個基於 RVC (Retrieval-based Voice Conversion) 技術的音頻轉音頻模型,專門用於語音轉換任務。
語音合成
Transformers

D
sail-rvc
5,043
1
Tts Hifigan
HiFiGAN是一種生成對抗網絡(GAN)模型,能夠從梅爾頻譜圖生成高質量音頻,適用於文本轉語音系統。
語音合成 英語
T
nvidia
5,022
36
Alvin
這是一個RVC(Retrieval-based Voice Conversion)模型,用於音頻到音頻的轉換任務。
語音合成
Transformers

A
sail-rvc
4,909
0
Billie Eilish
這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型,能夠將輸入音頻轉換為模仿比莉·艾利什聲音的輸出音頻。
語音合成
Transformers

B
sail-rvc
4,899
2
Tts En Fastpitch
FastPitch是一種完全並行的Transformer架構文本轉語音模型,能夠控制音高和音素持續時間,生成高質量的英語美式語音。
語音合成 英語
T
nvidia
4,701
38
Mms Tts Fra
Meta公司開發的法語文本轉語音模型,基於VITS架構,支持高質量語音合成
語音合成
Transformers

M
facebook
4,667
8
Justinbiebermw
這是一個基於RVC(Retrieval-Based Voice Conversion)技術的音頻轉換模型,專門用於將輸入音頻轉換為賈斯汀·比伯(Justin Bieber)風格的語音。
語音合成
Transformers

J
sail-rvc
4,656
0
Frank Sinatra 51600 Steps 250 Epochs RVC
這是一個基於RVC框架的音頻轉音頻模型,專門用於聲音轉換任務。
語音合成
Transformers

F
sail-rvc
4,590
0
- 1
- 2
- 3
- 4
- 5
- 6
- 10