# 高保真音頻

Llasa 3B
Llasa是一個基於LLaMA的文本轉語音(TTS)系統,通過整合語音標記擴展了語言模型的能力,支持中英文語音生成。
語音合成 支持多種語言
L
unsloth
55
1
Csm 1b
Apache-2.0
CSM(對話語音模型)是Sesame開發的1B參數語音生成模型,可從文本和音頻輸入生成RVQ音頻編碼。
語音合成 Safetensors 英語
C
unsloth
2,667
5
Voxpolska V1 Merged 16bit
Apache-2.0
VoxPolska是一個專注于波蘭語文本到語音轉換的先進模型,能夠生成自然流暢且富有表現力的波蘭語語音。
語音合成 Transformers 其他
V
salihfurkaan
116
1
Handler
MIT
Bark是由Suno創建的基於Transformer的文本轉音頻模型,可生成高度逼真的多語言語音、音樂、背景噪音和音效。
語音合成 支持多種語言
H
walterheart
20
0
Csm 1b
Apache-2.0
一個基於PyTorch的文本轉語音模型,支持中文語音合成,由SesameAILabs開發併發布。
語音合成
C
nielsr
18
3
Inspiremusic Base
Apache-2.0
InspireMusic是一個專注於音樂生成、歌曲生成和音頻生成的統一工具包,具有高音頻質量和長篇幅音樂生成能力。
音頻生成 英語
I
FunAudioLLM
60
10
Stable Audio Open 1.0 Music
其他
Stable Audio Tools 是一個文本轉音頻模型,能夠根據文本描述生成高質量的音頻內容。
音頻生成 英語
S
Nekochu
62
3
F5 TTS German
F5-TTS 是一個基於流匹配技術的德語語音合成模型,專注於生成流暢且忠實的語音輸出。
語音合成 支持多種語言
F
marduk-ra
577
26
MP SENet DNS
MIT
一個基於Pytorch的音頻去噪和語音增強模型,有效去除音頻噪聲提升語音清晰度
音頻增強 Safetensors
M
JacobLinCool
723
1
Openmusic
QAMDT是一種面向文本生成音樂的質量感知擴散模型,通過創新訓練技術提升音頻保真度和音樂表現力。
音頻生成
O
jadechoghari
108
63
Vits Eng
MIT
基於VITS架構的英文文本轉語音模型,由Kakao Enterprise訓練,支持高質量語音合成
語音合成 Transformers 英語
V
BricksDisplay
28
4
Musicgen Melody Large
MusicGen是一款由Meta AI開發的文本生成音樂模型,能夠根據文本描述或音頻提示生成高質量音樂樣本。
音頻生成 Transformers
M
facebook
1,414
29
Musicgen Stereo Melody Large
MusicGen是一款支持立體聲和旋律引導的文本到音樂生成模型,能夠根據文本描述或音頻提示生成高質量音樂樣本。
音頻生成 Transformers
M
facebook
61
47
Sepformer Dns4 16k Enhancement
Apache-2.0
這是一個基於SepFormer架構的語音增強模型,專門用於去噪任務,在微軟DNS-4數據集上訓練,支持16kHz採樣頻率的音頻處理。
音頻增強 支持多種語言
S
speechbrain
1,669
20
Harry Styles E150 S6600
這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型,能夠將輸入音頻轉換為Harry Styles風格的語音。
語音合成 Transformers
H
sail-rvc
1,659
0
Taylor Swift RVC V1
這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型,能夠將輸入音頻轉換為泰勒·斯威夫特風格的語音。
語音合成 Transformers
T
sail-rvc
4,540
0
Michaeljackson
這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型,能夠將輸入音頻轉換為邁克爾·傑克遜風格的語音。
語音合成 Transformers
M
sail-rvc
6,250
0
BLACKPINK JISOO RVC V1
這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型,專門用於將輸入音頻轉換為BLACKPINK成員JISOO的聲音風格。
語音合成 Transformers
B
sail-rvc
1,000
0
Bark Small
Bark是由Suno創建的基於Transformer的文本轉音頻模型,能生成高度逼真的多語言語音、音樂、背景噪音和簡單音效。
語音合成 Transformers 支持多種語言
B
ylacombe
1,947
2
Musicgen Medium
MusicGen是一款基於文本描述或音頻提示生成高質量音樂樣本的文本轉音樂模型,採用15億參數的自迴歸Transformer架構。
音頻生成 Transformers
M
facebook
1.5M
118
Bark
MIT
Bark是由Suno創建的基於Transformer的文本轉音頻模型,能生成高度逼真的多語言語音、音樂、背景噪音和簡單音效。
語音合成 Transformers 支持多種語言
B
suno
35.72k
1,326
Tts Transformer Zh Cv7 Css10
基於fairseq S^2的Transformer文本轉語音模型,支持簡體中文,單人女聲,在Common Voice v7和CSS10數據集上訓練。
語音合成 中文
T
facebook
15
85
Kan Bayashi Ljspeech Joint Finetune Conformer Fastspeech2 Hifigan
這是一個基於 ESPnet2 的文本轉語音(TTS)模型,使用 LJSpeech 數據集訓練,結合了 Conformer、FastSpeech2 和 HiFi-GAN 架構。
語音合成 英語
K
espnet
20
16
Convtasnet Libri2Mix Sepclean 16k
這是一個基於Asteroid框架訓練的ConvTasNet模型,專門用於音頻分離任務,在Libri2Mix數據集的sep_clean任務上訓練。
聲音分離
C
JorisCos
13.38k
2
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase