FreeSVC開源歌聲轉換模型 - 免費支持多語言，零樣本跨語言轉換歌聲

首頁

Free Svc

由alefiury開發

FreeSVC是一款支持多語言的零樣本歌聲轉換模型，能夠實現跨語言的歌聲轉換而無需針對特定語言進行大量訓練。

語音合成支持多種語言#零樣本歌聲轉換 #多語言支持 #跨語言音色保持

下載量 27

發布時間 : 1/7/2025

模型概述

FreeSVC採用增強版VITS架構，集成了說話人無關聚類(SPIN)技術和ECAPA2說話人編碼器，能有效分離說話人特徵與語言內容，確保跨多種語言的高質量自然音色轉換。

模型特點

多語言支持

支持11種語言的零樣本轉換，包括中文、英語、日語等主要語言

跨語言轉換能力

無需針對特定語言進行訓練即可實現跨語言的歌聲轉換

高質量音色保持

通過SPIN技術和ECAPA2編碼器有效分離說話人特徵與語言內容

多樣化訓練數據

使用超過12個不同數據集進行訓練，涵蓋語音和歌唱數據

模型能力

語音轉換

歌聲轉換

語音克隆

歌聲克隆

跨語言轉換

零樣本學習

使用案例

音樂創作

多語言歌曲翻唱

將歌曲從一種語言轉換為另一種語言，同時保持原唱歌手的音色特點

實現自然流暢的跨語言歌曲轉換

虛擬歌手音色定製

為虛擬歌手創建獨特的音色特徵

生成具有特定音色特徵的歌唱聲音

語音技術研究

跨語言語音轉換研究

用於研究不同語言間的語音特徵轉換

為語音轉換技術提供研究平臺

🚀 FreeSVC：零樣本多語言歌唱語音轉換

FreeSVC 是一個極具前景的多語言零樣本歌唱語音轉換模型。它能夠實現跨語言的歌唱語音轉換，而無需進行大量特定語言的訓練。GitHub 倉庫。論文 arXiv 預印本。

🚀 快速開始

FreeSVC 作為一款多語言零樣本歌唱語音轉換模型，能在無需大量特定語言訓練的情況下，實現跨語言的歌唱語音轉換。你可以通過 GitHub 倉庫查看項目代碼，通過論文 arXiv 預印本瞭解更多技術細節。

✨ 主要特性

多語言支持：支持多種語言的歌唱語音轉換，包括中文、荷蘭語、英語、法語等。
零樣本轉換：無需大量特定語言的訓練，即可實現跨語言的歌唱語音轉換。
高質量轉換：採用增強的 VITS 架構，結合 Speaker - invariant Clustering (SPIN) 和 ECAPA2 說話人編碼器，確保轉換後的語音質量高、自然度好。

📚 詳細文檔

🔍 支持的語言

語言	ID	狀態	語音數據	歌唱數據
中文	0	✅ 完整支持	255 小時	70 小時
荷蘭語	1	✅ 完整支持	CML 的一部分	-
英語	2	✅ 完整支持	921 小時	47 小時
法語	3	✅ 完整支持	CML 的一部分	-
德語	4	✅ 完整支持	CML 的一部分	-
意大利語	5	✅ 完整支持	CML 的一部分	-
日語	6	✅ 完整支持	30 小時	-
其他*	7	⚠️ 部分支持	-	10 小時
波蘭語	8	✅ 完整支持	CML 的一部分	-
葡萄牙語	9	✅ 完整支持	CML 的一部分	-
西班牙語	10	✅ 完整支持	CML 的一部分	-

*注：“其他”類別用於無內容的發聲技巧。

🧠 模型概述

FreeSVC 利用了增強的 VITS 架構，集成了 Speaker - invariant Clustering (SPIN) 和 ECAPA2 說話人編碼器。這種組合有效地將說話人特徵與語言內容分離，確保了跨多種語言的高質量、自然聽起來的語音轉換。

📊 訓練數據集

FreeSVC 在多種涵蓋多種語言的語音和歌唱數據集上進行了訓練：

數據集	時長	語言	類型
AISHELL - 1	170 小時	中文	語音
AISHELL - 3	85 小時	中文	語音
CML - TTS	3.1k	7 種語言	語音
HiFiTTS	292 小時	英語	語音
JVS	30 小時	日語	語音
LibriTTS - R	585 小時	英語	語音
NUS (NHSS)	7 小時	英語	語音、歌唱
OpenSinger	50 小時	中文	歌唱
Opencpop	5 小時	中文	歌唱
PopBuTFy	10 小時、40 小時	中文、英語	歌唱
POPCS	5 小時	中文	歌唱
VCTK	44 小時	英語	語音
VocalSet	10 小時	其他	歌唱

📄 許可證

FreeSVC 遵循 知識共享署名 - 非商業性使用 - 相同方式共享 4.0 國際許可協議 (CC BY - NC - SA 4.0) 發佈。這意味著：

該模型 僅可用於研究和非商業目的。嚴禁任何商業用途。
任何衍生作品必須 以相同的許可協議進行共享。
使用該模型時必須進行適當的引用。

用戶還必須 遵守用於訓練的原始數據集的許可協議。一些數據集可能有超出 CC BY - NC - SA 4.0 的額外限制。在使用該模型之前，請確保你已審查並遵守其條款。

完整詳情請參考 CC BY - NC - SA 4.0 許可協議。

📖 引用

@INPROCEEDINGS{10890068,
  author={Ferreira, Alef Iury and Gris, Lucas Rafael and Da Rosa, Augusto and Oliveira, Frederico and Casanova, Edresson and Sousa, Rafael and Junior, Arnaldo and Soares, Anderson and Filho, Arlindo Galvão},
  booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, 
  title={FreeSVC: Towards Zero-shot Multilingual Singing Voice Conversion}, 
  year={2025},
  volume={},
  number={},
  pages={1-5},
  keywords={Training;Source coding;Zero shot learning;Refining;Signal processing;Data models;Acoustics;Multilingual;Data mining;Speech synthesis;Singing Voice Conversion;Synthesis of Singing Voices;Cross-lingual and multilingual aspects in speech synthesis},
  doi={10.1109/ICASSP49660.2025.10890068}}