🚀 NVIDIA FastPitch (en-US)
NVIDIA FastPitchは、ピッチと個々の音素の持続時間に対する韻律制御を備えた完全並列型のトランスフォーマーアーキテクチャです。また、教師なし音声テキストアライナーを使用しています。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションを参照してください。このモデルは、NVIDIA Rivaと互換性があり、本番環境のサーバーデプロイメントにも対応しています。
|
|
|
|
|
🚀 クイックスタート
このモデルは、NeMoツールキットで使用でき、推論や別のデータセットでの微調整のための事前学習済みチェックポイントとして利用できます。
モデルをトレーニング、微調整、または試すには、NVIDIA NeMoをインストールする必要があります。最新のPyTorchバージョンをインストールした後に、NeMoをインストールすることをおすすめします。
pip install nemo_toolkit['all']
💻 使用例
基本的な使用法
from nemo.collections.tts.models import FastPitchModel
spec_generator = FastPitchModel.from_pretrained("nvidia/tts_en_fastpitch")
from nemo.collections.tts.models import HifiGanModel
model = HifiGanModel.from_pretrained(model_name="nvidia/tts_hifigan")
高度な使用法
import soundfile as sf
parsed = spec_generator.parse("You can type your sentence here to get nemo to produce speech.")
spectrogram = spec_generator.generate_spectrogram(tokens=parsed)
audio = model.convert_spectrogram_to_audio(spec=spectrogram)
sf.write("speech.wav", audio.to('cpu').detach().numpy()[0], 22050)
入力
このモデルは、テキストのバッチを受け付けます。
出力
このモデルは、メルスペクトログラムを生成します。
📚 ドキュメント
モデルアーキテクチャ
FastPitchは、基本周波数の輪郭を条件としたFastSpeechに基づく完全並列型のテキスト音声変換モデルです。このモデルは、推論中にピッチの輪郭を予測します。これらの予測を変更することで、生成される音声をより表現力豊かにし、発話の意味により適合させ、最終的にリスナーにとってより魅力的なものにすることができます。FastPitchは、完全並列型のトランスフォーマーアーキテクチャに基づいており、典型的な発話のメルスペクトログラム合成において、Tacotron2よりもはるかに高いリアルタイム係数を持っています。また、教師なし音声テキストアライナーを使用しています。
トレーニング
NeMoツールキット [3] を使用して、モデルを1000エポックでトレーニングしました。これらのモデルは、このサンプルスクリプトとこの基本設定を使用してトレーニングされています。
データセット
このモデルは、22050HzでサンプリングされたLJSpeechでトレーニングされており、アメリカアクセントの女性の英語音声の生成についてテストされています。
パフォーマンス
現時点では、パフォーマンス情報は提供されていません。
制限事項
このチェックポイントは、22050Hzのデータでトレーニングされたボコーダーでのみ良好に動作します。それ以外の場合、生成される音声はノイズが多かったり、途切れ途切れになったりする可能性があります。
NVIDIA Rivaを使用したデプロイメント
最高のリアルタイム精度、レイテンシー、およびスループットを得るには、NVIDIA Rivaを使用してモデルをデプロイしてください。NVIDIA Rivaは、オンプレミス、すべてのクラウド、マルチクラウド、ハイブリッド、エッジ、および組み込み環境でデプロイ可能な高速化された音声AI SDKです。
また、Rivaは以下の機能を提供します。
- 数十万時間のGPUコンピュート時間で独自データを使用してトレーニングされたモデルチェックポイントによる、最も一般的な言語に対する世界クラスの精度
- ランタイムでの単語ブースト(例:ブランド名や製品名)、および音響モデル、言語モデル、逆テキスト正規化のカスタマイズによる最高クラスの精度
- ストリーミング音声認識、Kubernetes互換のスケーリング、およびエンタープライズグレードのサポート
Rivaのライブデモをご覧ください。
📄 ライセンス
このモデルは、CC BY 4.0ライセンスの下で提供されています。
参考文献