Vits - VCTKオープンソース音声合成モデル - 無料でデプロイ可能、テキストから自然な音声への変換を実現

Home

Vits Vctk

Developed by kakao-enterprise

VITSはエンドツーエンド音声合成モデルで、入力テキストシーケンスから対応する音声波形を予測できます。このモデルは条件付き変分オートエンコーダ（VAE）アーキテクチャを採用し、事後エンコーダ、デコーダ、条件付き事前モジュールを含みます。

音声合成

Transformers

Open Source License:MIT #エンドツーエンド音声合成 #マルチスピーカー対応 #敵対的学習

Downloads 3,601

Release Time : 8/31/2023

Model Overview

VITSは敵対的学習に基づくエンドツーエンド音声合成モデルで、入力テキストシーケンスから対応する音声波形を予測できます。モデルは条件付き変分オートエンコーダ（VAE）アーキテクチャを採用し、同じテキストから異なるリズムの音声を生成することをサポートします。

Model Features

エンドツーエンド音声合成

入力テキストシーケンスから直接対応する音声波形を予測でき、中間特徴抽出が不要です。

条件付き変分オートエンコーダアーキテクチャ

条件付き変分オートエンコーダ（VAE）アーキテクチャを採用し、事後エンコーダ、デコーダ、条件付き事前モジュールを含みます。

ランダム持続時間予測器

革新的なランダム持続時間予測器を導入し、同じテキストから異なるリズムの音声を生成することをサポートします。

マルチスピーカー対応

シングルスピーカーとマルチスピーカーバージョンを提供し、109種類のアクセントをサポートします。

Model Capabilities

テキスト音声合成

マルチスピーカー音声合成

異なるリズムの音声生成

Use Cases

音声合成

音声アシスタント

音声アシスタントに自然な音声合成能力を提供します。

自然で流暢な音声出力を生成します。

オーディオブック

テキストコンテンツを音声に変換し、オーディオブック制作に使用します。

異なるリズムとアクセントの音声生成をサポートします。

🚀 VITS: エンドツーエンドテキスト-to-音声合成の敵対的学習を用いた条件付き変分オートエンコーダ

VITSは、入力テキストシーケンスに基づいて音声波形を予測するエンドツーエンドの音声合成モデルです。これは、事後エンコーダ、デコーダ、および条件付き事前分布から構成される条件付き変分オートエンコーダ（VAE）です。このリポジトリには、VCTKデータセットで学習された公式のVITSチェックポイントの重みが含まれています。

🚀 クイックスタート

VITSは、🤗 Transformersライブラリのバージョン4.33以降で利用可能です。このチェックポイントを使用するには、まずライブラリの最新バージョンをインストールします。

pip install --upgrade transformers accelerate

次に、以下のコードスニペットで推論を実行します。

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("kakao-enterprise/vits-vctk")
tokenizer = AutoTokenizer.from_pretrained("kakao-enterprise/vits-vctk")

text = "Hey, it's Hugging Face on the phone"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

結果の波形は、.wavファイルとして保存できます。

import scipy

scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)

または、Jupyter Notebook / Google Colabで表示することもできます。

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

✨ 主な機能

VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）は、入力テキストシーケンスに基づいて音声波形を予測するエンドツーエンドの音声合成モデルです。これは、事後エンコーダ、デコーダ、および条件付き事前分布から構成される条件付き変分オートエンコーダ（VAE）です。

Transformerベースのテキストエンコーダと複数のカップリング層から構成されるフローベースのモジュールによって、スペクトログラムベースの音響特徴量のセットが予測されます。スペクトログラムは、HiFi - GANボコーダと同じスタイルで、転置畳み込み層のスタックを使用してデコードされます。同じテキスト入力を複数の方法で話すことができるTTS問題の1対多の性質に着想を得て、モデルには確率的持続時間予測器も含まれており、これによりモデルは同じ入力テキストから異なるリズムの音声を合成することができます。

モデルは、変分下限と敵対的学習から導出される損失の組み合わせを用いてエンドツーエンドで学習されます。モデルの表現力を向上させるために、正規化フローが条件付き事前分布に適用されます。推論時には、持続時間予測モジュールに基づいてテキストエンコーディングがアップサンプリングされ、次にフローモジュールとHiFi - GANデコーダのカスケードを使用して波形にマッピングされます。持続時間予測器の確率的性質により、モデルは非決定的であり、同じ音声波形を生成するには固定シードが必要です。

VITSモデルには2つのバリエーションがあります。1つはLJ Speechデータセットで学習されたもので、もう1つはVCTKデータセットで学習されたものです。LJ Speechデータセットは、1人の話者の13,100個の短い音声クリップで構成され、合計長は約24時間です。VCTKデータセットは、様々なアクセントを持つ109人のネイティブ英語話者によって発話された約44,000個の短い音声クリップで構成され、音声クリップの合計長は約44時間です。

チェックポイント	学習時間	話者数
vits-ljs	24	1
vits-vctk	44	109

📦 インストール

VITSを使用するには、まず🤗 Transformersライブラリの最新バージョンをインストールする必要があります。

pip install --upgrade transformers accelerate

💻 使用例

基本的な使用法

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("kakao-enterprise/vits-vctk")
tokenizer = AutoTokenizer.from_pretrained("kakao-enterprise/vits-vctk")

text = "Hey, it's Hugging Face on the phone"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

高度な使用法

import scipy

scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

📚 ドキュメント

このモデルは、Kakao EnterpriseのJaehyeon Kimらによって開発されました。モデルを使用する場合は、VITS論文を引用することを検討してください。

@inproceedings{kim2021conditional,
  title={"Conditional Variational Autoencoder with Adversarial Learning for End-to-end Text-to-speech"},
  author={Kim, Jaehyeon and Kong, Jungil and Son, Juhee},
  booktitle={International Conference on Machine Learning},
  pages={5530--5540},
  year={2021},
  organization={PMLR}
}