語音合成

2025年最佳 610 款語音合成工具

Kokoro是一款擁有8200萬參數的開源文本轉語音（TTS）模型，以其輕量級架構和高音質著稱，同時具備快速和成本效益高的特點。

語音合成英語

ⓍTTS是一款革命性的語音生成模型，僅需6秒音頻片段即可實現跨語言音色克隆，支持17種語言。

F5-TTS 是一個基於流匹配的語音合成模型，專注於流暢且忠實的語音合成，特別適用於童話講述等場景。

Bigvgan V2 22khz 80band 256x

BigVGAN是基於大規模訓練的通用神經聲碼器，能夠從梅爾頻譜生成高質量音頻波形。

基於LibriTTS數據集微調的SpeechT5語音合成(文本轉語音)模型，支持高質量的文本轉語音轉換。

Dia是由Nari實驗室開發的16億參數文本轉語音模型，能夠直接從文本生成高度逼真的對話，支持情感和語調控制，並能生成非語言交流內容。

Safetensors 英語

CSM是Sesame開發的10億參數規模語音生成模型，可根據文本和音頻輸入生成RVQ音頻編碼

Safetensors 英語

Kokoro 82M V1.1 Zh

Kokoro 是一個開放權重的小型但功能強大的文本轉語音（TTS）模型系列，新增了來自專業數據集的100名中文說話人數據。

Indic Parler Tts

Indic Parler-TTS 是 Parler-TTS Mini 的多語言印度語言擴展版本，支持21種語言，包括多種印度語言和英語。

Transformers 支持多種語言

Bark是由Suno創建的基於Transformer的文本轉音頻模型，能生成高度逼真的多語言語音、音樂、背景噪音和簡單音效。

Transformers 支持多種語言

F5-TTS 是一個完全非自迴歸的零樣本文本轉語音模型，支持高質量的語音合成。

XCodec2是一款支持多語言語音語義理解與高質量語音重建的語音標記器

Parler Tts Large V1

擁有22億參數的文本轉語音模型，基於4.5萬小時音頻數據訓練，支持通過文本提示控制語音特徵

Transformers 英語

Meta開發的英語文本轉語音模型，基於VITS架構，支持高質量語音合成

Bark是由Suno開發的基於Transformer的多語言文本轉音頻模型，能生成逼真語音、音樂及非語言聲音

Transformers 支持多種語言

Meta公司開發的支持約魯巴語的文本轉語音模型，基於VITS架構實現高質量的語音合成

Parler Tts Mini V1

輕量級文本轉語音模型，基於4.5萬小時音頻訓練，支持通過文本提示控制語音特徵

Transformers 英語

Orpheus 3b 0.1 Ft Q4 K M GGUF

Orpheus-TTS是一個輕量級文本轉語音模型，支持在本地運行，提供高質量的語音合成功能。

語音合成英語

這是一個RVC（Retrieval-based Voice Conversion）模型，用於音頻轉音頻任務，可將輸入音頻轉換為特定風格的輸出音頻。

Homersimpson2333333

這是一個基於RVC（Retrieval-Based Voice Conversion）技術的語音轉換模型，能夠將輸入音頻轉換為荷馬·辛普森風格的聲音。

Freddie Mercury RVC 700 Epochs

這是一個基於RVC（Retrieval-based Voice Conversion）技術的語音轉換模型，經過700輪訓練，能夠將輸入音頻轉換為弗雷迪·墨丘利風格的語音。

Lana Del Rey E1000 S13000

這是一個基於RVC（Retrieval-based Voice Conversion）技術的語音轉換模型，能夠將輸入音頻轉換為特定風格的語音。

Adele RVC 400 Epochs

這是一個基於RVC（Retrieval-based Voice Conversion）技術的語音轉換模型，經過400輪訓練，能夠將輸入音頻轉換為模仿阿黛爾音色的輸出音頻。

這是一個基於RVC架構的音頻轉音頻模型，專門用於處理XXXTentacion風格的語音轉換。

Xphonebert Base

XPhoneBERT是首個面向文本轉語音(TTS)的音素表徵預訓練多語言模型，基於BERT-base架構，使用近100種語言的3.3億條音素級句子訓練。

IndicF5是一個基於1417小時高質量語音數據訓練的接近人類的多語言文本轉語音(TTS)模型，支持11種印度語言。

語音合成其他

這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型，能夠將輸入音頻轉換為邁克爾·傑克遜風格的語音。

這是一個基於RVC（Retrieval-based Voice Conversion）技術的語音轉換模型，可以將源語音轉換為目標語音風格。

Eminem E600 S5400

這是一個基於RVC（Retrieval-Based Voice Conversion）技術的語音轉換模型，能夠將輸入音頻轉換為特定風格的語音輸出。

ⓍTTS 是一款語音生成模型，僅需6秒的音頻片段即可克隆聲音並應用於不同語言。

Parler Tts Mini V0.1

Parler-TTS Mini 是一個輕量級的文本轉語音模型，基於10.5K小時音頻數據訓練，支持通過文本提示控制語音特徵。

Transformers 英語

Ariana Grande RVC V1

這是一個基於RVC（Retrieval-Based Voice Conversion）技術的語音轉換模型，能夠將輸入音頻轉換為愛莉安娜·格蘭德風格的語音。

魚語語音 V1.5 是一款領先的文本轉語音（TTS）模型，基於超過100萬小時的多語言音頻數據訓練而成。

語音合成支持多種語言

CSM是由Sesame開發的1B參數語音生成模型，可通過文本和音頻輸入生成RVQ音頻編碼，支持帶上下文的語音生成。

Safetensors 英語

Drake_RVC 是一個基於 RVC (Retrieval-based Voice Conversion) 技術的音頻轉音頻模型，專門用於語音轉換任務。

HiFiGAN是一種生成對抗網絡(GAN)模型，能夠從梅爾頻譜圖生成高質量音頻，適用於文本轉語音系統。

語音合成英語

這是一個RVC（Retrieval-based Voice Conversion）模型，用於音頻到音頻的轉換任務。

這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型，能夠將輸入音頻轉換為模仿比莉·艾利什聲音的輸出音頻。

Tts En Fastpitch

FastPitch是一種完全並行的Transformer架構文本轉語音模型，能夠控制音高和音素持續時間，生成高質量的英語美式語音。

語音合成英語

Meta公司開發的法語文本轉語音模型，基於VITS架構，支持高質量語音合成

這是一個基於RVC（Retrieval-Based Voice Conversion）技術的音頻轉換模型，專門用於將輸入音頻轉換為賈斯汀·比伯（Justin Bieber）風格的語音。

Frank Sinatra 51600 Steps 250 Epochs RVC

這是一個基於RVC框架的音頻轉音頻模型，專門用於聲音轉換任務。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase