parler - mini - v1 - jennyオープンソースTTSモデル - 無料でデプロイして英語のテキストを音声合成する方法

ホーム

Parler Mini V1 Jenny

parler-ttsによって開発

Jenny TTS は transformers ベースのテキスト読み上げモデルで、英語音声合成をサポートしています。

音声合成

Transformers

英語#英語TTS #アノテーション付き音声合成 #Jennyデータセット

ダウンロード数 961

リリース時間 : 8/13/2024

モデル概要

このモデルは主に英語テキストを自然な音声に変換するために使用され、音声出力が必要なアプリケーションシナリオに適しています。

モデル特徴

英語音声合成

高品質な英語テキスト読み上げ機能をサポート。

transformersベース

transformers ライブラリの強力な機能を活用した音声合成。

モデル能力

テキスト読み上げ

英語音声合成

使用事例

音声アシスタント

仮想アシスタント音声出力

仮想アシスタントに自然な音声出力を提供。

流暢で自然な英語音声を生成。

アクセシビリティアプリ

スクリーンリーダー

視覚障害ユーザー向けテキスト読み上げ機能を提供。

視覚障害ユーザーがテキスト情報を取得するのを支援。

🚀 Parler-TTS Mini v1 - Jenny

Parler-TTS Mini v1のファインチューニング版で、高品質のシングルスピーカーのJennyデータセットを使用しています。このモデルは音声合成（TTS）に最適です。

Colabでのファインチューニングガイド:

🚀 クイックスタート

Parler-TTS Mini v1 を 30時間のシングルスピーカーの高品質Jenny（アイルランド出身 ☘️）データセットでファインチューニングしたバージョンで、TTSモデルのトレーニングに適しています。使い方はParler-TTS v1とほぼ同じで、音声の説明に「Jenny」というキーワードを指定するだけです。

📦 インストール

pip install git+https://github.com/huggingface/parler-tts.git

💻 使用例

基本的な使用法

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-mini-v1-jenny").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-mini-v1-jenny")

prompt = "Hey, how are you doing today? My name is Jenny, and I'm here to help you with any questions you have."
description = "Jenny speaks at an average pace with an animated delivery in a very confined sounding environment with clear audio quality."

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

📚 ドキュメント

引用

このリポジトリが役に立った場合は、この作品と元のStability AIの論文を引用していただけると幸いです。

@misc{lacombe-etal-2024-parler-tts,
  author = {Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi},
  title = {Parler-TTS},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/huggingface/parler-tts}}
}

@misc{lyth2024natural,
      title={Natural language guidance of high-fidelity text-to-speech with synthetic annotations},
      author={Dan Lyth and Simon King},
      year={2024},
      eprint={2402.01912},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}

📄 ライセンス

このデータセットを使用してユーザーのアクションに応じて音声を生成するソフトウェア、ウェブサイト、プロジェクト、インターフェース（音声インターフェースを含む）では、帰属表示が必要です。帰属表示とは、音声を「Jenny」、可能な限り「Jenny (Dioco)」と呼ぶことを意味します。生成されたクリップを配布する際には、帰属表示は必要ありません（ただし、歓迎されます）。商用利用は許可されています。データセットを自分のものと主張するなどの不当な行為はしないでください。それ以外の制限はありません。