S

Speecht5 Vc

由microsoft開發
SpeechT5是基於CMU ARCTIC數據集微調的語音轉換模型,支持將一種語音轉換為另一種語音,保持內容不變但改變音色特徵。
下載量 14.40k
發布時間 : 2/2/2023

模型概述

SpeechT5是一個統一模態的編碼器-解碼器預訓練框架,專門用於語音轉換任務。它可以將輸入的語音波形轉換為具有不同音色特徵的輸出語音,同時保留原始語音的內容。

模型特點

統一模態架構
採用共享的編碼器-解碼器網絡處理語音和文本,實現跨模態的統一表示學習
跨模態向量量化
通過潛在單元隨機混合語音/文本狀態,實現文本與語音信息在統一語義空間的對齊
多任務適應性
預訓練框架可適應多種口語處理任務,包括語音識別、合成、翻譯和轉換等

模型能力

語音轉換
音色特徵修改
語音內容保留

使用案例

語音處理
語音風格轉換
將一種說話人的語音風格轉換為另一種風格,適用於配音、語音合成等場景
保持語音內容不變,僅改變音色特徵
語音增強應用
改善語音質量或調整語音特徵,適用於通信、娛樂等領域
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase