零樣本語音克隆

# 零樣本語音克隆

MOSS-TTSD 是一個開源的雙語口語對話合成模型，支持中文和英文，能夠將對話腳本轉化為自然、富有表現力的對話語音。

Safetensors 支持多種語言

Spark-TTS是一款基於大型語言模型(LLM)的高效文本轉語音系統，支持中英文雙語合成和零樣本語音克隆。

語音合成支持多種語言

Openf5 TTS Base

OpenF5 TTS 是一款基於F5-TTS框架訓練的開源文本轉語音模型，支持零樣本語音克隆功能，採用Apache 2.0許可協議，可商業使用。

語音合成英語

Zonos V0.1 Transformer

Zonos-v0.1 是一款領先的開源權重文本轉語音模型，基於超過20萬小時的多語言語音數據訓練而成，其表現力和質量可與頂級TTS服務商媲美，甚至更勝一籌。

Cosyvoice2 0.5B

CosyVoice是一個文本轉語音(TTS)模型，支持多語言和語音轉換功能，提供高質量的語音合成能力。

基於F5-TTS架構的意大利語專用文本轉語音模型，使用73+小時意大利語數據微調

語音合成其他

GPT SoVITS V1 Base

GPT-SoVITS (V1) 是一個多語言文本轉語音基礎模型，支持中文、英文和日文。

語音合成支持多種語言

Cosyvoice 300M SFT

CosyVoice是一個文本轉語音(TTS)模型，支持多種語言和風格的聲音合成。

Voicecraft 330M TTSEnhanced

VoiceCraft 是一個基於 PyTorch 的文本轉語音模型，支持高質量的語音合成。

Voicecraft 830M TTSEnhanced

VoiceCraft 是一個基於 PyTorch 的文本轉語音模型，支持高質量的語音合成。

Voicecraft Giga330m

VoiceCraft 是一個基於 PyTorch 的文本轉語音模型，支持高質量的語音合成。

Metavoice 1B V0.1

MetaVoice-1B是一個12億參數的文本轉語音（TTS）基座模型，經過10萬小時語音數據訓練，專注於生成情感化的英語語音，並支持聲音克隆和長文本合成。

語音合成英語

Kinyarwanda YourTTS

基於端到端深度學習的盧旺達語TTS系統，支持零樣本學習，僅需1分鐘語音即可引入新聲音。

Transformers 其他

DigitalUmuganda

Kinyarwanda YourTTS V1

這是一個基於深度學習的端到端盧旺達語文本轉語音(TTS)系統，具有零樣本學習能力，僅需1分鐘語音即可引入新聲音。

Transformers 其他

DigitalUmuganda

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase