V

Vits Vctk

由kakao-enterprise開發
VITS是一種端到端語音合成模型,能夠根據輸入的文本序列預測對應的語音波形。該模型採用條件變分自編碼器(VAE)架構,包含後驗編碼器、解碼器和條件先驗模塊。
下載量 3,601
發布時間 : 8/31/2023

模型概述

VITS是一種基於對抗學習的端到端語音合成模型,能夠根據輸入的文本序列預測對應的語音波形。模型採用條件變分自編碼器(VAE)架構,支持從相同文本生成不同節奏的語音。

模型特點

端到端語音合成
能夠根據輸入的文本序列直接預測對應的語音波形,無需中間特徵提取。
條件變分自編碼器架構
採用條件變分自編碼器(VAE)架構,包含後驗編碼器、解碼器和條件先驗模塊。
隨機時長預測器
創新性地引入隨機時長預測器,支持從相同文本生成不同節奏的語音。
多說話人支持
提供單說話人和多說話人版本,支持109種口音。

模型能力

文本轉語音
多說話人語音合成
不同節奏語音生成

使用案例

語音合成
語音助手
為語音助手提供自然語音合成能力。
生成自然、流暢的語音輸出。
有聲讀物
將文本內容轉換為語音,用於有聲讀物製作。
支持不同節奏和口音的語音生成。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase