🚀 FreeSVC: ゼロショット多言語歌唱音声変換
FreeSVC は、有望な多言語ゼロショット歌唱音声変換モデルです。多くの言語固有の学習を必要とせずに、言語を越えた歌唱音声の変換を可能にします。GitHubリポジトリ。論文のarXivプレプリント。
🚀 クイックスタート
FreeSVCは、有望な多言語ゼロショット歌唱音声変換モデルです。多くの言語固有の学習を必要とせずに、言語を越えた歌唱音声の変換を可能にします。詳細については、GitHubリポジトリ と 論文のarXivプレプリント を参照してください。
✨ 主な機能
FreeSVCは、Speaker-invariant Clustering (SPIN) とECAPA2話者エンコーダを統合した拡張VITSアーキテクチャを利用しています。この組み合わせにより、話者の特徴を言語内容から効果的に分離し、複数の言語にわたる高品質で自然な音声変換を実現します。
📦 サポートされる言語
言語 |
ID |
状態 |
音声データ |
歌唱データ |
中国語 |
0 |
✅ 完全対応 |
255時間 |
70時間 |
オランダ語 |
1 |
✅ 完全対応 |
CMLの一部 |
- |
英語 |
2 |
✅ 完全対応 |
921時間 |
47時間 |
フランス語 |
3 |
✅ 完全対応 |
CMLの一部 |
- |
ドイツ語 |
4 |
✅ 完全対応 |
CMLの一部 |
- |
イタリア語 |
5 |
✅ 完全対応 |
CMLの一部 |
- |
日本語 |
6 |
✅ 完全対応 |
30時間 |
- |
その他* |
7 |
⚠️ 部分対応 |
- |
10時間 |
ポーランド語 |
8 |
✅ 完全対応 |
CMLの一部 |
- |
ポルトガル語 |
9 |
✅ 完全対応 |
CMLの一部 |
- |
スペイン語 |
10 |
✅ 完全対応 |
CMLの一部 |
- |
*注: "その他" カテゴリは、内容のないボーカルテクニックに使用されます。
🔧 モデルの概要
FreeSVCは、Speaker-invariant Clustering (SPIN) とECAPA2話者エンコーダを統合した拡張VITSアーキテクチャを利用しています。この組み合わせにより、話者の特徴を言語内容から効果的に分離し、複数の言語にわたる高品質で自然な音声変換を実現します。
📦 学習データセット
FreeSVCは、複数の言語をカバーする多様な音声と歌唱のデータセットで学習されました。
データセット |
時間 |
言語 |
タイプ |
AISHELL-1 |
170時間 |
中国語 |
音声 |
AISHELL-3 |
85時間 |
中国語 |
音声 |
CML-TTS |
3.1k |
7言語 |
音声 |
HiFiTTS |
292時間 |
英語 |
音声 |
JVS |
30時間 |
日本語 |
音声 |
LibriTTS-R |
585時間 |
英語 |
音声 |
NUS (NHSS) |
7時間 |
英語 |
音声、歌唱 |
OpenSinger |
50時間 |
中国語 |
歌唱 |
Opencpop |
5時間 |
中国語 |
歌唱 |
PopBuTFy |
10時間、40時間 |
中国語、英語 |
歌唱 |
POPCS |
5時間 |
中国語 |
歌唱 |
VCTK |
44時間 |
英語 |
音声 |
VocalSet |
10時間 |
その他 |
歌唱 |
📄 ライセンス
FreeSVCは、Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) ライセンスの下で公開されています。これは以下の意味を持ちます。
- このモデルは 研究および非商用目的でのみ使用できます。商用利用は厳禁です。
- 派生作品は 同じライセンスの下で共有されなければなりません。
- モデルを使用する際には、適切な引用を行わなければなりません。
ユーザーはまた、学習に使用された 元のデータセットのライセンスにも準拠しなければなりません。一部のデータセットには、CC BY-NC-SA 4.0 を超える追加の制限がある場合があります。モデルを使用する前に、それらの条件を確認し、遵守してください。
詳細については、CC BY-NC-SA 4.0ライセンス を参照してください。
📚 引用
@INPROCEEDINGS{10890068,
author={Ferreira, Alef Iury and Gris, Lucas Rafael and Da Rosa, Augusto and Oliveira, Frederico and Casanova, Edresson and Sousa, Rafael and Junior, Arnaldo and Soares, Anderson and Filho, Arlindo Galvão},
booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
title={FreeSVC: Towards Zero-shot Multilingual Singing Voice Conversion},
year={2025},
volume={},
number={},
pages={1-5},
keywords={Training;Source coding;Zero shot learning;Refining;Signal processing;Data models;Acoustics;Multilingual;Data mining;Speech synthesis;Singing Voice Conversion;Synthesis of Singing Voices;Cross-lingual and multilingual aspects in speech synthesis},
doi={10.1109/ICASSP49660.2025.10890068}}