FreeSVCオープンソース歌声変換モデル - 無料で複数言語に対応、ゼロショットでのクロス言語歌声変換

Free Svc

alefiuryによって開発

FreeSVCは多言語対応のゼロショット歌声変換モデルで、特定の言語に対して大量のトレーニングを行うことなく、言語横断的な歌声変換を実現できます。

音声合成複数言語対応#ゼロショット歌声変換 #多言語サポート #言語横断的音色維持

ダウンロード数 27

リリース時間 : 1/7/2025

モデル概要

FreeSVCは強化版VITSアーキテクチャを採用し、話者非依存クラスタリング(SPIN)技術とECAPA2話者エンコーダーを統合しています。これにより、話者特徴と言語内容を効果的に分離し、複数言語にわたる高品質で自然な音色変換を保証します。

モデル特徴

多言語サポート

中国語、英語、日本語などの主要言語を含む11言語のゼロショット変換をサポート

言語横断変換能力

特定の言語向けのトレーニングなしで言語横断的な歌声変換を実現

高品質音色維持

SPIN技術とECAPA2エンコーダーにより話者特徴と言語内容を効果的に分離

多様なトレーニングデータ

音声と歌唱データを含む12以上の異なるデータセットを使用してトレーニング

モデル能力

音声変換

歌声変換

音声クローン

歌声クローン

言語横断変換

ゼロショット学習

使用事例

音楽制作

多言語歌曲カバー

歌曲をある言語から別の言語に変換し、元の歌手の音色特徴を維持

自然で流暢な言語横断歌曲変換を実現

バーチャルシンガー音色カスタマイズ

バーチャルシンガーに独自の音色特徴を作成

特定の音色特徴を持つ歌唱音声を生成

音声技術研究

言語横断音声変換研究

異なる言語間の音声特徴変換を研究するために使用

音声変換技術の研究プラットフォームを提供

🚀 FreeSVC: ゼロショット多言語歌唱音声変換

FreeSVC は、有望な多言語ゼロショット歌唱音声変換モデルです。多くの言語固有の学習を必要とせずに、言語を越えた歌唱音声の変換を可能にします。GitHubリポジトリ。論文のarXivプレプリント。

🚀 クイックスタート

FreeSVCは、有望な多言語ゼロショット歌唱音声変換モデルです。多くの言語固有の学習を必要とせずに、言語を越えた歌唱音声の変換を可能にします。詳細については、GitHubリポジトリと論文のarXivプレプリントを参照してください。

✨ 主な機能

FreeSVCは、Speaker-invariant Clustering (SPIN) とECAPA2話者エンコーダを統合した拡張VITSアーキテクチャを利用しています。この組み合わせにより、話者の特徴を言語内容から効果的に分離し、複数の言語にわたる高品質で自然な音声変換を実現します。

📦 サポートされる言語

言語	ID	状態	音声データ	歌唱データ
中国語	0	✅ 完全対応	255時間	70時間
オランダ語	1	✅ 完全対応	CMLの一部	-
英語	2	✅ 完全対応	921時間	47時間
フランス語	3	✅ 完全対応	CMLの一部	-
ドイツ語	4	✅ 完全対応	CMLの一部	-
イタリア語	5	✅ 完全対応	CMLの一部	-
日本語	6	✅ 完全対応	30時間	-
その他*	7	⚠️ 部分対応	-	10時間
ポーランド語	8	✅ 完全対応	CMLの一部	-
ポルトガル語	9	✅ 完全対応	CMLの一部	-
スペイン語	10	✅ 完全対応	CMLの一部	-

*注: "その他" カテゴリは、内容のないボーカルテクニックに使用されます。

🔧 モデルの概要

📦 学習データセット

FreeSVCは、複数の言語をカバーする多様な音声と歌唱のデータセットで学習されました。

データセット	時間	言語	タイプ
AISHELL-1	170時間	中国語	音声
AISHELL-3	85時間	中国語	音声
CML-TTS	3.1k	7言語	音声
HiFiTTS	292時間	英語	音声
JVS	30時間	日本語	音声
LibriTTS-R	585時間	英語	音声
NUS (NHSS)	7時間	英語	音声、歌唱
OpenSinger	50時間	中国語	歌唱
Opencpop	5時間	中国語	歌唱
PopBuTFy	10時間、40時間	中国語、英語	歌唱
POPCS	5時間	中国語	歌唱
VCTK	44時間	英語	音声
VocalSet	10時間	その他	歌唱

📄 ライセンス

FreeSVCは、Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) ライセンスの下で公開されています。これは以下の意味を持ちます。

このモデルは 研究および非商用目的でのみ使用できます。商用利用は厳禁です。
派生作品は 同じライセンスの下で共有されなければなりません。
モデルを使用する際には、適切な引用を行わなければなりません。

ユーザーはまた、学習に使用された 元のデータセットのライセンスにも準拠しなければなりません。一部のデータセットには、CC BY-NC-SA 4.0 を超える追加の制限がある場合があります。モデルを使用する前に、それらの条件を確認し、遵守してください。

詳細については、CC BY-NC-SA 4.0ライセンスを参照してください。

📚 引用

@INPROCEEDINGS{10890068,
  author={Ferreira, Alef Iury and Gris, Lucas Rafael and Da Rosa, Augusto and Oliveira, Frederico and Casanova, Edresson and Sousa, Rafael and Junior, Arnaldo and Soares, Anderson and Filho, Arlindo Galvão},
  booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, 
  title={FreeSVC: Towards Zero-shot Multilingual Singing Voice Conversion}, 
  year={2025},
  volume={},
  number={},
  pages={1-5},
  keywords={Training;Source coding;Zero shot learning;Refining;Signal processing;Data models;Acoustics;Multilingual;Data mining;Speech synthesis;Singing Voice Conversion;Synthesis of Singing Voices;Cross-lingual and multilingual aspects in speech synthesis},
  doi={10.1109/ICASSP49660.2025.10890068}}