tts_en_fastpitchオープンソースのテキスト読み上げモデル - 精密な音声制御で高品質のアメリカ英語音声を生成

ホーム

Tts En Fastpitch

nvidiaによって開発

FastPitchは完全並列のTransformerアーキテクチャを採用したテキスト音声変換モデルで、ピッチや音素の持続時間を制御し、高品質なアメリカ英語音声を生成できます。

音声合成

PyTorch

英語#並列テキスト音声変換 #ピッチ制御可能 #リアルタイム音声合成

ダウンロード数 4,701

リリース時間 : 6/28/2022

モデル概要

Transformerベースの並列TTSモデルで、ピッチ輪郭を予測することで表現力豊かな音声を生成し、リアルタイム音声合成をサポートします。

モデル特徴

完全並列アーキテクチャ

Transformerベースの完全並列設計により、効率的な音声合成を実現

ピッチ制御

ピッチ輪郭を予測・調整可能で、表現力豊かな音声を生成

リアルタイム合成

従来のTacotron2モデルと比較して高いリアルタイム性を実現

教師なしアライメント

教師なしの音声-テキストアライメントを使用し、合成精度を向上

モデル能力

英語テキスト音声変換

ピッチ制御

リアルタイム音声合成

メルスペクトログラム生成

使用事例

音声合成

音声アシスタント

仮想アシスタント向けに自然で流暢な音声応答を生成

表現力豊かなアメリカ英語音声を生成

オーディオブック

テキストコンテンツを音声に変換し、オーディオブック制作に利用

ピッチや話速を調整可能で、リスニング体験を向上

🚀 NVIDIA FastPitch (en-US)

NVIDIA FastPitchは、ピッチと個々の音素の持続時間に対する韻律制御を備えた完全並列型のトランスフォーマーアーキテクチャです。また、教師なし音声テキストアライナーを使用しています。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションを参照してください。このモデルは、NVIDIA Rivaと互換性があり、本番環境のサーバーデプロイメントにも対応しています。

| | | | |

🚀 クイックスタート

このモデルは、NeMoツールキットで使用でき、推論や別のデータセットでの微調整のための事前学習済みチェックポイントとして利用できます。

モデルをトレーニング、微調整、または試すには、NVIDIA NeMoをインストールする必要があります。最新のPyTorchバージョンをインストールした後に、NeMoをインストールすることをおすすめします。

pip install nemo_toolkit['all']

💻 使用例

基本的な使用法

# Load FastPitch
from nemo.collections.tts.models import FastPitchModel
spec_generator = FastPitchModel.from_pretrained("nvidia/tts_en_fastpitch")

# Load vocoder
from nemo.collections.tts.models import HifiGanModel
model = HifiGanModel.from_pretrained(model_name="nvidia/tts_hifigan")

高度な使用法

import soundfile as sf
parsed = spec_generator.parse("You can type your sentence here to get nemo to produce speech.")
spectrogram = spec_generator.generate_spectrogram(tokens=parsed)
audio = model.convert_spectrogram_to_audio(spec=spectrogram)

# Save the audio to disk in a file called speech.wav
sf.write("speech.wav", audio.to('cpu').detach().numpy()[0], 22050)

入力

このモデルは、テキストのバッチを受け付けます。

出力

このモデルは、メルスペクトログラムを生成します。

📚 ドキュメント

モデルアーキテクチャ

FastPitchは、基本周波数の輪郭を条件としたFastSpeechに基づく完全並列型のテキスト音声変換モデルです。このモデルは、推論中にピッチの輪郭を予測します。これらの予測を変更することで、生成される音声をより表現力豊かにし、発話の意味により適合させ、最終的にリスナーにとってより魅力的なものにすることができます。FastPitchは、完全並列型のトランスフォーマーアーキテクチャに基づいており、典型的な発話のメルスペクトログラム合成において、Tacotron2よりもはるかに高いリアルタイム係数を持っています。また、教師なし音声テキストアライナーを使用しています。