Vocosオープンソースの高速ニューラル声码器 - 効率的な音声再構築でテキスト読み上げタスクを支援

ホーム

Vocos Mel Hifigan Compat 44100khz

patriotykによって開発

Vocosは高速なニューラルボコーダーで、スペクトル係数を生成することで効率的な音声再構築を実現し、特にテキスト読み上げタスクに適しています。

音声合成

TensorBoard

その他オープンソースライセンス:MIT #高速スペクトル再構築 #メルスペクトル互換 #高音質音声合成

ダウンロード数 2,222

リリース時間 : 5/10/2024

モデル概要

Vocosは音響特徴から音声波形を合成するために設計された高速ニューラルボコーダーです。スペクトル係数を生成し、逆フーリエ変換を利用することで高速な音声再構築を実現し、従来のGANボコーダーよりも処理速度が速いです。

モデル特徴

高速スペクトル再構築

時系列音声サンプルを直接モデル化するのではなく、スペクトル係数を生成することで、より高速な音声再構築を実現

高音質音声合成

メルスペクトルを音響特徴として使用し、高品質な音声波形を生成

複数TTSモデルとの互換性

様々なテキスト読み上げモデルの音響出力と互換性を持つ設計

効率的なトレーニング

RTX-3090グラフィックカード2枚で約1ヶ月のトレーニングで完了

モデル能力

メルスペクトルから音声への変換

高音質音声合成

高速音声再構築

使用事例

音声合成

テキスト読み上げシステム

TTSシステムのバックエンドボコーダーとして、メルスペクトルを自然な音声に変換

高品質な音声出力を生成

音声処理

音声強調

音声特徴を変換・再構築

音声品質の改善が可能

🚀 Vocos

Vocos は、音響特徴から音声波形を合成するために設計された高速なニューラルボコーダーです。他の典型的なGANベースのボコーダーとは異なり、Vocosは時間領域で音声サンプルをモデル化しません。代わりに、スペクトル係数を生成し、逆フーリエ変換による迅速な音声再構成を可能にします。このモデルは、hifi-ganよりも高速で、いくつかのTTSモデルの音響出力と互換性がある代替手段を提供することを目的としています。

🚀 クイックスタート

このモデルは、メルスペクトログラムから音声波形を合成するボコーダーとして使用することを目的としています。

✨ 主な機能

音響特徴から音声波形を合成する高速なニューラルボコーダーです。
時間領域で音声サンプルをモデル化せず、スペクトル係数を生成します。
逆フーリエ変換による迅速な音声再構成を可能にします。
hifi-ganよりも高速で、いくつかのTTSモデルの音響出力と互換性があります。

📦 インストール

Vocosを推論モードでのみ使用する場合は、以下のコマンドを使用してインストールします。

pip install git+https://github.com/langtech-bsc/vocos.git@matcha

💻 使用例

基本的な使用法

import torch

from vocos import Vocos

vocos = Vocos.from_pretrained("patriotyk/vocos-mel-hifigan-compat-44100khz")

mel = torch.randn(1, 80, 256)  # B, C, T
audio = vocos.decode(mel)

📚 ドキュメント

モデルの説明

Vocos は、音響特徴から音声波形を合成するために設計された高速なニューラルボコーダーです。他の典型的なGANベースのボコーダーとは異なり、Vocosは時間領域で音声サンプルをモデル化しません。代わりに、スペクトル係数を生成し、逆フーリエ変換による迅速な音声再構成を可能にします。

このバージョンのVocosは、80ビンのメルスペクトログラムを音響特徴として使用しています。これは、hifi-gan が導入されて以来、TTS分野で広く使用されています。このモデルの目標は、hifi-ganの代替手段として、高速でいくつかのTTSモデルの音響出力と互換性のあるモデルを提供することです。

想定される使用法と制限

このモデルは、メルスペクトログラムから音声波形を合成するボコーダーとして使用することを目的としています。このモデルは音声生成に特化して学習されており、他の音声ドメインで使用すると、高品質なサンプルが生成されない可能性があります。

学習データ

このモデルは、narizaka ツールを使用して、ウクライナ語のオーディオブックから作成された800時間以上の非公開データセットで学習されました。

学習手順

このモデルは、バッチサイズ20で200万ステップと210エポック学習されました。初期学習率3e-4のCosineスケジューラーを使用しました。学習には2枚のRTX-3090ビデオカードを使用し、約1か月の連続学習が必要でした。

学習ハイパーパラメータ

initial_learning_rate: 3e-4
scheduler: ウォームアップやリスタートのないコサインスケジューラー
mel_loss_coeff: 45
mrd_loss_coeff: 1.0
batch_size: 20
num_samples: 32768

評価

評価は、元のリポジトリのメトリクスを使用して行われました。210エポック後に以下の結果が得られました。

val_loss: 3.703
f1_score: 0.950
mel_loss: 0.248
periodicity_loss: 0.127
pesq_score: 3.399
pitch_loss: 38.26
utmos_score: 3.146

引用

このコードがあなたの研究に貢献した場合は、以下のように引用してください。

@article{siuzdak2023vocos,
  title={Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis},
  author={Siuzdak, Hubert},
  journal={arXiv preprint arXiv:2306.00814},
  year={2023}
}