M

Metis

由amphion開發
墨提斯是一個面向統一語音生成的基礎模型,採用預訓練與微調範式,通過掩碼生成建模在大規模無標註語音數據上進行預訓練,再通過微調適配多樣化語音生成任務。
下載量 25
發布時間 : 2/24/2025

模型概述

墨提斯是一個基於掩碼生成預訓練的語音生成基礎模型,能夠通過微調適配多種語音生成任務,如文本轉語音、語音轉換、目標說話人提取等。

模型特點

掩碼生成預訓練
在大規模無標註語音數據上進行掩碼生成預訓練,學習語音的通用表徵。
多樣化語音生成任務適配
通過微調可以適配多種語音生成任務,如文本轉語音、語音轉換等。
高效參數利用
以不足2000萬可訓練參數或1/300訓練數據量,超越當前最先進的單任務或多任務系統。

模型能力

文本轉語音
語音轉換
目標說話人提取
語音增強
唇語轉語音

使用案例

語音生成
零樣本文本轉語音
將文本轉換為自然語音,無需特定說話人數據。
全面超越當前最先進的單任務或多任務系統。
語音轉換
將一種語音轉換為另一種語音,保留內容但改變說話人特徵。
以有限數據和可訓練參數實現高效適配。
語音處理
目標說話人提取
從混合語音中提取特定說話人的語音。
在多項任務中表現優異。
語音增強
提高語音信號的質量和清晰度。
以1/300訓練數據量超越當前系統。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase