🚀 Metis:基于掩码生成式预训练的基础语音生成模型
Metis 是一个用于统一语音生成的基础模型,采用预训练和微调范式,在大规模无标签语音数据上进行掩码生成式预训练,能高效适应多种语音生成任务。
项目链接
📚 详细文档
概述
我们推出了 Metis,这是一个用于统一语音生成的基础模型。与以往特定任务或多任务模型不同,Metis 遵循预训练和微调范式。它在大规模无标签语音数据上使用掩码生成式建模进行预训练,然后进行微调以适应各种语音生成任务。具体而言:
- Metis 使用两种离散语音表示:从语音自监督学习(SSL)特征派生的 SSL 令牌,以及直接从波形量化的声学令牌。
- Metis 在 SSL 令牌上执行掩码生成式预训练,利用 300K 小时的多样化语音数据,无需任何额外条件。
- 通过使用特定任务条件进行微调,Metis 能够高效适应各种语音生成任务,同时支持多模态输入,即使在使用有限数据和可训练参数的情况下也是如此。
实验表明,Metis 可以作为统一语音生成的基础模型:在包括零样本文本转语音、语音转换、目标说话人提取、语音增强和唇语转语音在内的五项语音生成任务中,即使可训练参数少于 2000 万或训练数据减少 300 倍,Metis 也优于最先进的特定任务或多任务系统。音频样本可在 演示页面 上获取。
模型介绍
Metis 与 MaskGCT 完全兼容,并与它共享几个关键模型组件。这些共享组件包括:
我们开源了 Metis 第一阶段(掩码生成式预训练)的预训练模型检查点,以及用于语音增强(SE)、目标说话人提取(TSE)、语音转换(VC)、唇语转语音(L2S)的微调模型和统一多任务(Omni)模型。
对于零样本文本转语音,你可以从 MaskGCT 下载 text2semantic 模型,它与 Metis 框架兼容。
引用
如果你在研究中使用了 Metis,请引用以下论文:
@article{wang2025metis,
title={Metis: A Foundation Speech Generation Model with Masked Generative Pre-training},
author={Wang, Yuancheng and Zheng, Jiachen and Zhang, Junan and Zhang, Xueyao and Liao, Huan and Wu, Zhizheng},
journal={arXiv preprint arXiv:2502.03128},
year={2025}
}
@inproceedings{wang2024maskgct,
author={Wang, Yuancheng and Zhan, Haoyue and Liu, Liwei and Zeng, Ruihong and Guo, Haotian and Zheng, Jiachen and Zhang, Qiang and Zhang, Xueyao and Zhang, Shunsi and Wu, Zhizheng},
title={MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer},
booktitle = {{ICLR}},
publisher = {OpenReview.net},
year = {2025}
}
@article{amphion_v0.2,
title = {Overview of the Amphion Toolkit (v0.2)},
author = {Jiaqi Li and Xueyao Zhang and Yuancheng Wang and Haorui He and Chaoren Wang and Li Wang and Huan Liao and Junyi Ao and Zeyu Xie and Yiqiao Huang and Junan Zhang and Zhizheng Wu},
year = {2025},
journal = {arXiv preprint arXiv:2501.15442},
}
@inproceedings{amphion,
author={Zhang, Xueyao and Xue, Liumeng and Gu, Yicheng and Wang, Yuancheng and Li, Jiaqi and He, Haorui and Wang, Chaoren and Song, Ting and Chen, Xi and Fang, Zihao and Chen, Haopeng and Zhang, Junan and Tang, Tze Ying and Zou, Lexiao and Wang, Mingxuan and Han, Jun and Chen, Kai and Li, Haizhou and Wu, Zhizheng},
title={Amphion: An Open-Source Audio, Music and Speech Generation Toolkit},
booktitle={{IEEE} Spoken Language Technology Workshop, {SLT} 2024},
year={2024}
}
信息表格
属性 |
详情 |
模型类型 |
基于掩码生成式预训练的基础语音生成模型 |
训练数据 |
300K 小时的多样化语音数据 |
许可证 |
CC BY-NC 4.0 |
数据集 |
amphion/Emilia-Dataset |
任务类型 |
文本转语音 |