Parler-TTS Mini オープンソースのテキスト読み上げモデル - 軽量で無料のアプリケーション、音声特徴を制御可能

ホーム

Parler Tts Mini V0.1

parler-ttsによって開発

Parler-TTS Miniは軽量なテキスト読み上げモデルで、10.5K時間の音声データでトレーニングされ、テキストプロンプトによる音声特徴の制御をサポートします。

音声合成

Transformers

英語オープンソースライセンス:Apache-2.0 #高品質音声合成 #自然言語プロンプト制御 #軽量TTS

ダウンロード数 5,430

リリース時間 : 4/9/2024

モデル概要

これは高品質なテキスト読み上げモデルで、自然で流暢な音声を生成し、簡単なテキストプロンプトで性別、背景ノイズ、話速、ピッチ、リバーブなどの音声特徴を制御できます。

モデル特徴

音声特徴制御

テキストプロンプトで性別、背景ノイズ、話速、ピッチ、リバーブなどの音声特徴を制御可能

高品質音声

高品質で自然な音声出力を生成

完全オープンソース

すべてのデータセット、前処理コード、トレーニングコード、重みが公開されている

軽量

モデルサイズが小さく、リソースが限られた環境に適している

モデル能力

テキスト読み上げ

音声特徴制御

高品質音声生成

使用事例

音声合成

オーディオブック生成

電子書籍や記事の自然な音声バージョンを生成

高品質で表現力豊かな音声出力

音声アシスタント

仮想アシスタントにより自然な音声インタラクションを提供

特徴を制御可能な個性的な音声

支援技術

視覚障害者支援

視覚障害者のためにテキスト内容を音声に変換

明確で理解しやすい音声出力

🚀 Parler-TTS Mini v0.1

Parler-TTS Mini v0.1 は軽量なテキスト読み上げ（TTS）モデルです。10.5K時間の音声データで学習され、簡単なテキストプロンプト（例：性別、背景雑音、話す速度、ピッチ、残響）を使って制御できる機能を備え、高品質で自然な音声を生成することができます。これは Parler-TTS プロジェクトからの最初のリリースモデルで、TTSの学習リソースとデータセットの前処理コードをコミュニティに提供することを目的としています。

Colabでのファインチューニングガイド:

🚀 クイックスタート

Parler-TTSを使うのは簡単です。まずはライブラリを一度インストールしましょう。

pip install git+https://github.com/huggingface/parler-tts.git

次に、以下の推論コードを使ってモデルを使用できます。

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler_tts_mini_v0.1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler_tts_mini_v0.1")

prompt = "Hey, how are you doing today?"
description = "A female speaker with a slightly low-pitched voice delivers her words quite expressively, in a very confined sounding environment with clear audio quality. She speaks very fast."

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

⚠️ 重要提示

最高品質の音声を生成するには「very clear audio」という用語を含め、高レベルの背景雑音を生成するには「very noisy audio」を使用してください。

句読点を使って生成の韻律を制御できます。例えば、コンマを使って音声に小さな区切りを入れることができます。

残りの音声特徴（性別、話す速度、ピッチ、残響）は、プロンプトを通じて直接制御できます。

✨ 主な機能

軽量なテキスト読み上げ（TTS）モデルで、高品質で自然な音声を生成できます。
簡単なテキストプロンプトを使って、音声の性別、背景雑音、話す速度、ピッチ、残響などの機能を制御できます。
完全にオープンソースのリリースで、データセット、前処理、学習コード、重みがすべて公開されています。

📚 ドキュメント

動機

Parler-TTSは、Stability AIのDan Lythとエジンバラ大学のSimon Kingによる論文 Natural language guidance of high-fidelity text-to-speech with synthetic annotations の再現作です。他のTTSモデルとは異なり、Parler-TTSは完全にオープンソースでリリースされています。すべてのデータセット、前処理、学習コード、重みが許容的なライセンスの下で公開されており、コミュニティが私たちの成果を基に独自の強力なTTSモデルを開発できるようになっています。

Parler-TTSは以下のものとともにリリースされました。

The Parler-TTS repository - 独自のバージョンのモデルを学習およびファインチューニングできます。
The Data-Speech repository - 音声データセットをアノテーションするためのユーティリティスクリプトのセットです。
The Parler-TTS organization - アノテーション付きのデータセットや将来のチェックポイントを見つけることができます。

引用

このリポジトリが役に立った場合は、この成果物と元のStability AIの論文を引用していただけると幸いです。

@misc{lacombe-etal-2024-parler-tts,
  author = {Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi},
  title = {Parler-TTS},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/huggingface/parler-tts}}
}

@misc{lyth2024natural,
      title={Natural language guidance of high-fidelity text-to-speech with synthetic annotations},
      author={Dan Lyth and Simon King},
      year={2024},
      eprint={2402.01912},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}

📄 ライセンス

このモデルは、Apache 2.0ライセンスの下で許容的にライセンスされています。

Property	Details
Library Name	transformers
Tags	text-to-speech, annotation
License	apache-2.0
Language	en
Pipeline Tag	text-to-speech
Inference	false
Datasets	parler-tts/mls_eng_10k, blabble-io/libritts_r, parler-tts/libritts_r_tags_tagged_10k_generated, parler-tts/mls-eng-10k-tags_tagged_10k_generated