Metis（墨提斯）開源語音生成模型 - 預訓練微調適配多樣語音任務

首頁

Metis

由amphion開發

墨提斯是一個面向統一語音生成的基礎模型，採用預訓練與微調範式，通過掩碼生成建模在大規模無標註語音數據上進行預訓練，再通過微調適配多樣化語音生成任務。

語音合成

Safetensors

#語音生成基礎模型 #掩碼生成預訓練 #多任務語音生成

下載量 25

發布時間 : 2/24/2025

模型概述

墨提斯是一個基於掩碼生成預訓練的語音生成基礎模型，能夠通過微調適配多種語音生成任務，如文本轉語音、語音轉換、目標說話人提取等。

模型特點

掩碼生成預訓練

在大規模無標註語音數據上進行掩碼生成預訓練，學習語音的通用表徵。

多樣化語音生成任務適配

通過微調可以適配多種語音生成任務，如文本轉語音、語音轉換等。

高效參數利用

以不足2000萬可訓練參數或1/300訓練數據量，超越當前最先進的單任務或多任務系統。

模型能力

文本轉語音

語音轉換

目標說話人提取

語音增強

唇語轉語音

使用案例

語音生成

零樣本文本轉語音

將文本轉換為自然語音，無需特定說話人數據。

全面超越當前最先進的單任務或多任務系統。

語音轉換

將一種語音轉換為另一種語音，保留內容但改變說話人特徵。

以有限數據和可訓練參數實現高效適配。

語音處理

目標說話人提取

從混合語音中提取特定說話人的語音。

在多項任務中表現優異。

語音增強

提高語音信號的質量和清晰度。

以1/300訓練數據量超越當前系統。

🚀 Metis：基於掩碼生成式預訓練的基礎語音生成模型

Metis 是一個用於統一語音生成的基礎模型，採用預訓練和微調範式，在大規模無標籤語音數據上進行掩碼生成式預訓練，能高效適應多種語音生成任務。

項目鏈接

📚 詳細文檔

概述

我們推出了 Metis，這是一個用於統一語音生成的基礎模型。與以往特定任務或多任務模型不同，Metis 遵循預訓練和微調範式。它在大規模無標籤語音數據上使用掩碼生成式建模進行預訓練，然後進行微調以適應各種語音生成任務。具體而言：

Metis 使用兩種離散語音表示：從語音自監督學習（SSL）特徵派生的 SSL 令牌，以及直接從波形量化的聲學令牌。
Metis 在 SSL 令牌上執行掩碼生成式預訓練，利用 300K 小時的多樣化語音數據，無需任何額外條件。
通過使用特定任務條件進行微調，Metis 能夠高效適應各種語音生成任務，同時支持多模態輸入，即使在使用有限數據和可訓練參數的情況下也是如此。

實驗表明，Metis 可以作為統一語音生成的基礎模型：在包括零樣本文本轉語音、語音轉換、目標說話人提取、語音增強和唇語轉語音在內的五項語音生成任務中，即使可訓練參數少於 2000 萬或訓練數據減少 300 倍，Metis 也優於最先進的特定任務或多任務系統。音頻樣本可在演示頁面上獲取。

模型介紹

Metis 與 MaskGCT 完全兼容，並與它共享幾個關鍵模型組件。這些共享組件包括：

模型名稱	描述
Semantic Codec	將語音轉換為語義令牌。
Acoustic Codec	將語音轉換為聲學令牌，並從聲學令牌重建波形。
Semantic2Acoustic	根據語義令牌預測聲學令牌。

我們開源了 Metis 第一階段（掩碼生成式預訓練）的預訓練模型檢查點，以及用於語音增強（SE）、目標說話人提取（TSE）、語音轉換（VC）、唇語轉語音（L2S）的微調模型和統一多任務（Omni）模型。

對於零樣本文本轉語音，你可以從 MaskGCT 下載 text2semantic 模型，它與 Metis 框架兼容。

模型名稱	描述
Metis-Base	經過掩碼生成式預訓練的基礎模型。
Metis-TSE	用於目標說話人提取的微調模型。提供全量和 LoRA（r = 32）版本。
Metis-VC	用於語音轉換的微調模型。提供全量版本。
Metis-SE	用於語音增強的微調模型。提供全量和 LoRA（r = 32）版本。
Metis-L2S	用於唇語轉語音的微調模型。提供全量版本。
Metis-TTS	零樣本文本轉語音模型（與 MaskGCT 的第一階段相同）。
Metis-Omni	支持零樣本 TTS、VC、TSE 和 SE 的統一多任務模型。

引用

如果你在研究中使用了 Metis，請引用以下論文：

@article{wang2025metis,
  title={Metis: A Foundation Speech Generation Model with Masked Generative Pre-training},
  author={Wang, Yuancheng and Zheng, Jiachen and Zhang, Junan and Zhang, Xueyao and Liao, Huan and Wu, Zhizheng},
  journal={arXiv preprint arXiv:2502.03128},
  year={2025}
}
@inproceedings{wang2024maskgct,
  author={Wang, Yuancheng and Zhan, Haoyue and Liu, Liwei and Zeng, Ruihong and Guo, Haotian and Zheng, Jiachen and Zhang, Qiang and Zhang, Xueyao and Zhang, Shunsi and Wu, Zhizheng},
  title={MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer},
  booktitle    = {{ICLR}},
  publisher    = {OpenReview.net},
  year         = {2025}
}
@article{amphion_v0.2,
  title        = {Overview of the Amphion Toolkit (v0.2)},
  author       = {Jiaqi Li and Xueyao Zhang and Yuancheng Wang and Haorui He and Chaoren Wang and Li Wang and Huan Liao and Junyi Ao and Zeyu Xie and Yiqiao Huang and Junan Zhang and Zhizheng Wu},
  year         = {2025},
  journal      = {arXiv preprint arXiv:2501.15442},
}
@inproceedings{amphion,
    author={Zhang, Xueyao and Xue, Liumeng and Gu, Yicheng and Wang, Yuancheng and Li, Jiaqi and He, Haorui and Wang, Chaoren and Song, Ting and Chen, Xi and Fang, Zihao and Chen, Haopeng and Zhang, Junan and Tang, Tze Ying and Zou, Lexiao and Wang, Mingxuan and Han, Jun and Chen, Kai and Li, Haizhou and Wu, Zhizheng},
    title={Amphion: An Open-Source Audio, Music and Speech Generation Toolkit},
    booktitle={{IEEE} Spoken Language Technology Workshop, {SLT} 2024},
    year={2024}
}

信息表格

屬性	詳情
模型類型	基於掩碼生成式預訓練的基礎語音生成模型
訓練數據	300K 小時的多樣化語音數據
許可證	CC BY-NC 4.0
數據集	amphion/Emilia-Dataset
任務類型	文本轉語音