🚀 FreeSVC:零样本多语言歌唱语音转换
FreeSVC 是一个极具前景的多语言零样本歌唱语音转换模型。它能够实现跨语言的歌唱语音转换,而无需进行大量特定语言的训练。GitHub 仓库。论文 arXiv 预印本。
🚀 快速开始
FreeSVC 作为一款多语言零样本歌唱语音转换模型,能在无需大量特定语言训练的情况下,实现跨语言的歌唱语音转换。你可以通过 GitHub 仓库 查看项目代码,通过 论文 arXiv 预印本 了解更多技术细节。
✨ 主要特性
- 多语言支持:支持多种语言的歌唱语音转换,包括中文、荷兰语、英语、法语等。
- 零样本转换:无需大量特定语言的训练,即可实现跨语言的歌唱语音转换。
- 高质量转换:采用增强的 VITS 架构,结合 Speaker - invariant Clustering (SPIN) 和 ECAPA2 说话人编码器,确保转换后的语音质量高、自然度好。
📚 详细文档
🔍 支持的语言
语言 |
ID |
状态 |
语音数据 |
歌唱数据 |
中文 |
0 |
✅ 完整支持 |
255 小时 |
70 小时 |
荷兰语 |
1 |
✅ 完整支持 |
CML 的一部分 |
- |
英语 |
2 |
✅ 完整支持 |
921 小时 |
47 小时 |
法语 |
3 |
✅ 完整支持 |
CML 的一部分 |
- |
德语 |
4 |
✅ 完整支持 |
CML 的一部分 |
- |
意大利语 |
5 |
✅ 完整支持 |
CML 的一部分 |
- |
日语 |
6 |
✅ 完整支持 |
30 小时 |
- |
其他* |
7 |
⚠️ 部分支持 |
- |
10 小时 |
波兰语 |
8 |
✅ 完整支持 |
CML 的一部分 |
- |
葡萄牙语 |
9 |
✅ 完整支持 |
CML 的一部分 |
- |
西班牙语 |
10 |
✅ 完整支持 |
CML 的一部分 |
- |
*注:“其他”类别用于无内容的发声技巧。
🧠 模型概述
FreeSVC 利用了增强的 VITS 架构,集成了 Speaker - invariant Clustering (SPIN) 和 ECAPA2 说话人编码器。这种组合有效地将说话人特征与语言内容分离,确保了跨多种语言的高质量、自然听起来的语音转换。
📊 训练数据集
FreeSVC 在多种涵盖多种语言的语音和歌唱数据集上进行了训练:
数据集 |
时长 |
语言 |
类型 |
AISHELL - 1 |
170 小时 |
中文 |
语音 |
AISHELL - 3 |
85 小时 |
中文 |
语音 |
CML - TTS |
3.1k |
7 种语言 |
语音 |
HiFiTTS |
292 小时 |
英语 |
语音 |
JVS |
30 小时 |
日语 |
语音 |
LibriTTS - R |
585 小时 |
英语 |
语音 |
NUS (NHSS) |
7 小时 |
英语 |
语音、歌唱 |
OpenSinger |
50 小时 |
中文 |
歌唱 |
Opencpop |
5 小时 |
中文 |
歌唱 |
PopBuTFy |
10 小时、40 小时 |
中文、英语 |
歌唱 |
POPCS |
5 小时 |
中文 |
歌唱 |
VCTK |
44 小时 |
英语 |
语音 |
VocalSet |
10 小时 |
其他 |
歌唱 |
📄 许可证
FreeSVC 遵循 知识共享署名 - 非商业性使用 - 相同方式共享 4.0 国际许可协议 (CC BY - NC - SA 4.0) 发布。这意味着:
- 该模型 仅可用于研究和非商业目的。严禁任何商业用途。
- 任何衍生作品必须 以相同的许可协议进行共享。
- 使用该模型时必须进行适当的引用。
用户还必须 遵守用于训练的原始数据集的许可协议。一些数据集可能有超出 CC BY - NC - SA 4.0 的额外限制。在使用该模型之前,请确保你已审查并遵守其条款。
完整详情请参考 CC BY - NC - SA 4.0 许可协议。
📖 引用
@INPROCEEDINGS{10890068,
author={Ferreira, Alef Iury and Gris, Lucas Rafael and Da Rosa, Augusto and Oliveira, Frederico and Casanova, Edresson and Sousa, Rafael and Junior, Arnaldo and Soares, Anderson and Filho, Arlindo Galvão},
booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
title={FreeSVC: Towards Zero-shot Multilingual Singing Voice Conversion},
year={2025},
volume={},
number={},
pages={1-5},
keywords={Training;Source coding;Zero shot learning;Refining;Signal processing;Data models;Acoustics;Multilingual;Data mining;Speech synthesis;Singing Voice Conversion;Synthesis of Singing Voices;Cross-lingual and multilingual aspects in speech synthesis},
doi={10.1109/ICASSP49660.2025.10890068}}