🚀 Metis:基於掩碼生成式預訓練的基礎語音生成模型
Metis 是一個用於統一語音生成的基礎模型,採用預訓練和微調範式,在大規模無標籤語音數據上進行掩碼生成式預訓練,能高效適應多種語音生成任務。
項目鏈接
📚 詳細文檔
概述
我們推出了 Metis,這是一個用於統一語音生成的基礎模型。與以往特定任務或多任務模型不同,Metis 遵循預訓練和微調範式。它在大規模無標籤語音數據上使用掩碼生成式建模進行預訓練,然後進行微調以適應各種語音生成任務。具體而言:
- Metis 使用兩種離散語音表示:從語音自監督學習(SSL)特徵派生的 SSL 令牌,以及直接從波形量化的聲學令牌。
- Metis 在 SSL 令牌上執行掩碼生成式預訓練,利用 300K 小時的多樣化語音數據,無需任何額外條件。
- 通過使用特定任務條件進行微調,Metis 能夠高效適應各種語音生成任務,同時支持多模態輸入,即使在使用有限數據和可訓練參數的情況下也是如此。
實驗表明,Metis 可以作為統一語音生成的基礎模型:在包括零樣本文本轉語音、語音轉換、目標說話人提取、語音增強和唇語轉語音在內的五項語音生成任務中,即使可訓練參數少於 2000 萬或訓練數據減少 300 倍,Metis 也優於最先進的特定任務或多任務系統。音頻樣本可在 演示頁面 上獲取。
模型介紹
Metis 與 MaskGCT 完全兼容,並與它共享幾個關鍵模型組件。這些共享組件包括:
我們開源了 Metis 第一階段(掩碼生成式預訓練)的預訓練模型檢查點,以及用於語音增強(SE)、目標說話人提取(TSE)、語音轉換(VC)、唇語轉語音(L2S)的微調模型和統一多任務(Omni)模型。
對於零樣本文本轉語音,你可以從 MaskGCT 下載 text2semantic 模型,它與 Metis 框架兼容。
引用
如果你在研究中使用了 Metis,請引用以下論文:
@article{wang2025metis,
title={Metis: A Foundation Speech Generation Model with Masked Generative Pre-training},
author={Wang, Yuancheng and Zheng, Jiachen and Zhang, Junan and Zhang, Xueyao and Liao, Huan and Wu, Zhizheng},
journal={arXiv preprint arXiv:2502.03128},
year={2025}
}
@inproceedings{wang2024maskgct,
author={Wang, Yuancheng and Zhan, Haoyue and Liu, Liwei and Zeng, Ruihong and Guo, Haotian and Zheng, Jiachen and Zhang, Qiang and Zhang, Xueyao and Zhang, Shunsi and Wu, Zhizheng},
title={MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer},
booktitle = {{ICLR}},
publisher = {OpenReview.net},
year = {2025}
}
@article{amphion_v0.2,
title = {Overview of the Amphion Toolkit (v0.2)},
author = {Jiaqi Li and Xueyao Zhang and Yuancheng Wang and Haorui He and Chaoren Wang and Li Wang and Huan Liao and Junyi Ao and Zeyu Xie and Yiqiao Huang and Junan Zhang and Zhizheng Wu},
year = {2025},
journal = {arXiv preprint arXiv:2501.15442},
}
@inproceedings{amphion,
author={Zhang, Xueyao and Xue, Liumeng and Gu, Yicheng and Wang, Yuancheng and Li, Jiaqi and He, Haorui and Wang, Chaoren and Song, Ting and Chen, Xi and Fang, Zihao and Chen, Haopeng and Zhang, Junan and Tang, Tze Ying and Zou, Lexiao and Wang, Mingxuan and Han, Jun and Chen, Kai and Li, Haizhou and Wu, Zhizheng},
title={Amphion: An Open-Source Audio, Music and Speech Generation Toolkit},
booktitle={{IEEE} Spoken Language Technology Workshop, {SLT} 2024},
year={2024}
}
信息表格
屬性 |
詳情 |
模型類型 |
基於掩碼生成式預訓練的基礎語音生成模型 |
訓練數據 |
300K 小時的多樣化語音數據 |
許可證 |
CC BY-NC 4.0 |
數據集 |
amphion/Emilia-Dataset |
任務類型 |
文本轉語音 |