高保真音頻

# 高保真音頻

Llasa是一個基於LLaMA的文本轉語音(TTS)系統，通過整合語音標記擴展了語言模型的能力，支持中英文語音生成。

語音合成支持多種語言

CSM（對話語音模型）是Sesame開發的1B參數語音生成模型，可從文本和音頻輸入生成RVQ音頻編碼。

Safetensors 英語

Voxpolska V1 Merged 16bit

VoxPolska是一個專注于波蘭語文本到語音轉換的先進模型，能夠生成自然流暢且富有表現力的波蘭語語音。

Transformers 其他

Bark是由Suno創建的基於Transformer的文本轉音頻模型，可生成高度逼真的多語言語音、音樂、背景噪音和音效。

語音合成支持多種語言

一個基於PyTorch的文本轉語音模型，支持中文語音合成，由SesameAILabs開發併發布。

Inspiremusic Base

InspireMusic是一個專注於音樂生成、歌曲生成和音頻生成的統一工具包，具有高音頻質量和長篇幅音樂生成能力。

音頻生成英語

Stable Audio Open 1.0 Music

Stable Audio Tools 是一個文本轉音頻模型，能夠根據文本描述生成高質量的音頻內容。

音頻生成英語

F5-TTS 是一個基於流匹配技術的德語語音合成模型，專注於生成流暢且忠實的語音輸出。

語音合成支持多種語言

一個基於Pytorch的音頻去噪和語音增強模型，有效去除音頻噪聲提升語音清晰度

QAMDT是一種面向文本生成音樂的質量感知擴散模型，通過創新訓練技術提升音頻保真度和音樂表現力。

基於VITS架構的英文文本轉語音模型，由Kakao Enterprise訓練，支持高質量語音合成

Transformers 英語

Musicgen Melody Large

MusicGen是一款由Meta AI開發的文本生成音樂模型，能夠根據文本描述或音頻提示生成高質量音樂樣本。

Musicgen Stereo Melody Large

MusicGen是一款支持立體聲和旋律引導的文本到音樂生成模型，能夠根據文本描述或音頻提示生成高質量音樂樣本。

Sepformer Dns4 16k Enhancement

這是一個基於SepFormer架構的語音增強模型，專門用於去噪任務，在微軟DNS-4數據集上訓練，支持16kHz採樣頻率的音頻處理。

音頻增強支持多種語言

Harry Styles E150 S6600

這是一個基於RVC（Retrieval-based Voice Conversion）技術的語音轉換模型，能夠將輸入音頻轉換為Harry Styles風格的語音。

Taylor Swift RVC V1

這是一個基於RVC（Retrieval-based Voice Conversion）技術的語音轉換模型，能夠將輸入音頻轉換為泰勒·斯威夫特風格的語音。

這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型，能夠將輸入音頻轉換為邁克爾·傑克遜風格的語音。

BLACKPINK JISOO RVC V1

這是一個基於RVC（Retrieval-based Voice Conversion）技術的語音轉換模型，專門用於將輸入音頻轉換為BLACKPINK成員JISOO的聲音風格。

Bark是由Suno創建的基於Transformer的文本轉音頻模型，能生成高度逼真的多語言語音、音樂、背景噪音和簡單音效。

Transformers 支持多種語言

Musicgen Medium

MusicGen是一款基於文本描述或音頻提示生成高質量音樂樣本的文本轉音樂模型，採用15億參數的自迴歸Transformer架構。

Bark是由Suno創建的基於Transformer的文本轉音頻模型，能生成高度逼真的多語言語音、音樂、背景噪音和簡單音效。

Transformers 支持多種語言

Tts Transformer Zh Cv7 Css10

基於fairseq S^2的Transformer文本轉語音模型，支持簡體中文，單人女聲，在Common Voice v7和CSS10數據集上訓練。

語音合成中文

Kan Bayashi Ljspeech Joint Finetune Conformer Fastspeech2 Hifigan

這是一個基於 ESPnet2 的文本轉語音(TTS)模型，使用 LJSpeech 數據集訓練，結合了 Conformer、FastSpeech2 和 HiFi-GAN 架構。

語音合成英語

Convtasnet Libri2Mix Sepclean 16k

這是一個基於Asteroid框架訓練的ConvTasNet模型，專門用於音頻分離任務，在Libri2Mix數據集的sep_clean任務上訓練。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase