parler-tts-mini-jenny-30HオープンソースTTSモデル - 無料でデプロイして英語のテキストを音声に変換する

ホーム

Parler Tts Mini Jenny 30H

parler-ttsによって開発

Jenny TTS は transformers ライブラリをベースにしたテキスト音声変換モデルで、英語音声合成をサポートしています。

音声合成

Transformers

英語#英語音声合成 #高品質TTS #アノテーションデータセットトレーニング

ダウンロード数 1,215

リリース時間 : 4/15/2024

モデル概要

このモデルは英語テキスト音声変換タスクに特化しており、入力テキストを自然な音声出力に変換できます。

モデル特徴

高品質音声合成

自然で流暢な英語音声出力を生成できます。

transformersベース

transformers ライブラリの強力な機能を活用した音声合成。

英語サポート

英語テキストの音声変換に特化。

モデル能力

英語テキスト音声変換

音声合成

使用事例

音声アシスタント

仮想アシスタント音声生成

仮想アシスタントに自然な音声出力を提供。

ユーザー体験の向上

オーディオブック

テキストコンテンツの音声化

テキストコンテンツを音声に変換し、オーディオブック制作に利用。

視覚障害ユーザーの利便性向上

🚀 Parler-TTS Mini v0.1 - Jenny

Parler-TTS Mini v0.1 のファインチューニング版で、30時間のシングルスピーカーの高品質なJenny（アイルランド出身 ☘️）データセットを使用しています。TTSモデルのトレーニングに適しています。
使用方法は Parler-TTS v0.1 とほぼ同じで、音声の説明にキーワード「Jenny」を指定するだけです。

Colabでのファインチューニングガイド:

🚀 クイックスタート

📦 インストール

pip install git+https://github.com/huggingface/parler-tts.git

💻 使用例

基本的な使用法

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-jenny-30H").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-jenny-30H")

prompt = "Hey, how are you doing today? My name is Jenny, and I'm here to help you with any questions you have."
description = "Jenny speaks at an average pace with an animated delivery in a very confined sounding environment with clear audio quality."

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

📚 ドキュメント

引用

このリポジトリが役に立った場合は、この作品と元のStability AIの論文を引用していただけると幸いです。

@misc{lacombe-etal-2024-parler-tts,
  author = {Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi},
  title = {Parler-TTS},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/huggingface/parler-tts}}
}

@misc{lyth2024natural,
      title={Natural language guidance of high-fidelity text-to-speech with synthetic annotations},
      author={Dan Lyth and Simon King},
      year={2024},
      eprint={2402.01912},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}

📄 ライセンス

このデータセットを使用してユーザーのアクションに応じて音声を生成するソフトウェア/ウェブサイト/プロジェクト/インターフェース（音声インターフェースを含む）では、帰属表示が必要です。帰属表示とは、音声を「Jenny」と呼び、可能な限り「Jenny (Dioco)」と呼ぶことを意味します。生成されたクリップを配布する際には、帰属表示は必要ありません（ただし、歓迎されます）。商用利用は許可されています。データセットが自分のものであると主張するなどの不当な行為はしないでください。その他の制限はありません。