🚀 FreeSVC:零樣本多語言歌唱語音轉換
FreeSVC 是一個極具前景的多語言零樣本歌唱語音轉換模型。它能夠實現跨語言的歌唱語音轉換,而無需進行大量特定語言的訓練。GitHub 倉庫。論文 arXiv 預印本。
🚀 快速開始
FreeSVC 作為一款多語言零樣本歌唱語音轉換模型,能在無需大量特定語言訓練的情況下,實現跨語言的歌唱語音轉換。你可以通過 GitHub 倉庫 查看項目代碼,通過 論文 arXiv 預印本 瞭解更多技術細節。
✨ 主要特性
- 多語言支持:支持多種語言的歌唱語音轉換,包括中文、荷蘭語、英語、法語等。
- 零樣本轉換:無需大量特定語言的訓練,即可實現跨語言的歌唱語音轉換。
- 高質量轉換:採用增強的 VITS 架構,結合 Speaker - invariant Clustering (SPIN) 和 ECAPA2 說話人編碼器,確保轉換後的語音質量高、自然度好。
📚 詳細文檔
🔍 支持的語言
語言 |
ID |
狀態 |
語音數據 |
歌唱數據 |
中文 |
0 |
✅ 完整支持 |
255 小時 |
70 小時 |
荷蘭語 |
1 |
✅ 完整支持 |
CML 的一部分 |
- |
英語 |
2 |
✅ 完整支持 |
921 小時 |
47 小時 |
法語 |
3 |
✅ 完整支持 |
CML 的一部分 |
- |
德語 |
4 |
✅ 完整支持 |
CML 的一部分 |
- |
意大利語 |
5 |
✅ 完整支持 |
CML 的一部分 |
- |
日語 |
6 |
✅ 完整支持 |
30 小時 |
- |
其他* |
7 |
⚠️ 部分支持 |
- |
10 小時 |
波蘭語 |
8 |
✅ 完整支持 |
CML 的一部分 |
- |
葡萄牙語 |
9 |
✅ 完整支持 |
CML 的一部分 |
- |
西班牙語 |
10 |
✅ 完整支持 |
CML 的一部分 |
- |
*注:“其他”類別用於無內容的發聲技巧。
🧠 模型概述
FreeSVC 利用了增強的 VITS 架構,集成了 Speaker - invariant Clustering (SPIN) 和 ECAPA2 說話人編碼器。這種組合有效地將說話人特徵與語言內容分離,確保了跨多種語言的高質量、自然聽起來的語音轉換。
📊 訓練數據集
FreeSVC 在多種涵蓋多種語言的語音和歌唱數據集上進行了訓練:
數據集 |
時長 |
語言 |
類型 |
AISHELL - 1 |
170 小時 |
中文 |
語音 |
AISHELL - 3 |
85 小時 |
中文 |
語音 |
CML - TTS |
3.1k |
7 種語言 |
語音 |
HiFiTTS |
292 小時 |
英語 |
語音 |
JVS |
30 小時 |
日語 |
語音 |
LibriTTS - R |
585 小時 |
英語 |
語音 |
NUS (NHSS) |
7 小時 |
英語 |
語音、歌唱 |
OpenSinger |
50 小時 |
中文 |
歌唱 |
Opencpop |
5 小時 |
中文 |
歌唱 |
PopBuTFy |
10 小時、40 小時 |
中文、英語 |
歌唱 |
POPCS |
5 小時 |
中文 |
歌唱 |
VCTK |
44 小時 |
英語 |
語音 |
VocalSet |
10 小時 |
其他 |
歌唱 |
📄 許可證
FreeSVC 遵循 知識共享署名 - 非商業性使用 - 相同方式共享 4.0 國際許可協議 (CC BY - NC - SA 4.0) 發佈。這意味著:
- 該模型 僅可用於研究和非商業目的。嚴禁任何商業用途。
- 任何衍生作品必須 以相同的許可協議進行共享。
- 使用該模型時必須進行適當的引用。
用戶還必須 遵守用於訓練的原始數據集的許可協議。一些數據集可能有超出 CC BY - NC - SA 4.0 的額外限制。在使用該模型之前,請確保你已審查並遵守其條款。
完整詳情請參考 CC BY - NC - SA 4.0 許可協議。
📖 引用
@INPROCEEDINGS{10890068,
author={Ferreira, Alef Iury and Gris, Lucas Rafael and Da Rosa, Augusto and Oliveira, Frederico and Casanova, Edresson and Sousa, Rafael and Junior, Arnaldo and Soares, Anderson and Filho, Arlindo Galvão},
booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
title={FreeSVC: Towards Zero-shot Multilingual Singing Voice Conversion},
year={2025},
volume={},
number={},
pages={1-5},
keywords={Training;Source coding;Zero shot learning;Refining;Signal processing;Data models;Acoustics;Multilingual;Data mining;Speech synthesis;Singing Voice Conversion;Synthesis of Singing Voices;Cross-lingual and multilingual aspects in speech synthesis},
doi={10.1109/ICASSP49660.2025.10890068}}