多說話人支持

# 多說話人支持

CSM（對話語音模型）是Sesame開發的1B參數語音生成模型，可從文本和音頻輸入生成RVQ音頻編碼。

Safetensors 英語

Csm 1b Safetensors Fp16

CSM（對話語音模型）是由Sesame開發的10億參數語音生成模型，可通過文本和音頻輸入生成RVQ音頻編碼。

Transformers 英語

CSM是由Sesame開發的1B參數語音生成模型，可通過文本和音頻輸入生成RVQ音頻編碼，支持帶上下文的語音生成。

Safetensors 英語

Csm 1b Safetensors Quants

CSM（對話語音模型）是Sesame開發的10億參數語音生成模型，可通過文本和音頻輸入生成RVQ音頻編碼。

Transformers 英語

一個基於PyTorch的文本轉語音模型，支持中文語音合成，由SesameAILabs開發併發布。

Kokoro 82M V1.1 Zh

Kokoro 是一個開放權重的小型但功能強大的文本轉語音（TTS）模型系列，新增了來自專業數據集的100名中文說話人數據。

Yourtts Formosan Only Ithuan

基於阿美語和太魯閣語的實驗性語音合成模型，使用ithuan數據集訓練

語音合成其他

基於F5-TTS的巴西葡萄牙語文本轉語音模型，支持情感標記和說話者特徵控制

語音合成其他

YarnGPT 是一款專為合成尼日利亞口音英語而設計的文本轉語音（TTS）模型，採用純語言建模技術，可為多樣化應用提供高質量、自然且文化相關的語音合成。

Transformers 英語

Hindi Text To Speech Tts

基於microsoft/speecht5_tts微調的印地語文本轉語音模型

Parler Tts Mini V1.1

Parler-TTS Mini v1.1 是一個輕量級的文本轉語音模型，基於45,000小時的音頻數據訓練而成，能夠生成高質量、自然流暢的語音，其特性可以通過簡單的文本提示進行控制。

Transformers 英語

F5-TTS 是一個完全非自迴歸的零樣本文本轉語音模型，支持高質量的語音合成。

Speecht5 Tts Tr V1.0

基於Microsoft SpeechT5微調的土耳其語文本轉語音模型，支持生成自然語音

Transformers 其他

Parler Tts Tiny V1

輕量級文本轉語音模型，基於4.5萬小時音頻數據訓練，可通過文本提示控制語音特性

Transformers 英語

Parler Tts Large V1

擁有22億參數的文本轉語音模型，基於4.5萬小時音頻數據訓練，支持通過文本提示控制語音特徵

Transformers 英語

Parler Tts Mini V1

輕量級文本轉語音模型，基於4.5萬小時音頻訓練，支持通過文本提示控制語音特徵

Transformers 英語

Parler Tts Mini Expresso

Parler-TTS Mini：Expresso是基於Parler-TTS Mini v0.1在Expresso數據集上微調的輕量級文本轉語音模型，支持情感和說話者控制。

Transformers 英語

Tts Ru Free Hf Vits Low Multispeaker

一個支持多說話人的俄語文本轉語音模型，可直接處理帶標點符號的普通文本，無需預先轉換為音素。

Transformers 其他

Speecht5 Tts Arabic

基於微軟SpeechT5架構微調的阿拉伯語文本轉語音模型，在Hakawati數據集上訓練

Transformers 阿拉伯語

Matxa Tts Cat Multispeaker

基於Matcha-TTS架構的加泰羅尼亞語多說話人文本轉語音模型，通過最優傳輸條件流匹配訓練，支持快速高質量語音合成

語音合成其他

這是一個基於VITS架構的俄語文本轉語音模型，能夠將俄語文本轉換為自然語音。

Transformers 其他

VITS是一種端到端語音合成模型，能夠根據輸入的文本序列預測對應的語音波形。該模型採用條件變分自編碼器（VAE）架構，包含後驗編碼器、解碼器和條件先驗模塊。

kakao-enterprise

VITS是一種端到端語音合成模型，能夠根據輸入文本序列預測對應的語音波形。

kakao-enterprise

Speecht5 Finetuned Facebook Voxpopuli French

基於microsoft/speecht5_tts模型在voxpopuli法語數據集上微調的文本轉語音模型

Nvidia Tts En Hifitts Hifigan Ft Fastpitch

HiFiGAN是一種基於GAN的聲碼器模型，能夠從梅爾頻譜圖生成高質量音頻，支持多說話人英語語音合成。

語音合成英語

Mastering-Python-HF

Speecht5 Tts Common Voice 5 Sv

基於微軟SpeechT5架構微調的瑞典語文本轉語音模型，使用Common Voice數據集訓練

Transformers 其他

這是一個基於ESPnet2框架訓練的日語文本轉語音(TTS)模型，使用VITS架構，由mio在amadeus數據集上訓練完成。

語音合成日語

Kan Bayashi Libritts Xvector Vits

基於ESPnet框架訓練的文本轉語音模型，使用LibriTTS數據集訓練，支持英語語音合成。

語音合成英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase