Parler-TTSミニ多言語版v1.1オープンソースモデル - 8種類のヨーロッパ言語のテキスト読み上げを無料でサポート

ホーム

Parler Tts Mini Multilingual V1.1

parler-ttsによって開発

Parler-TTS ミニ多言語版 v1.1 は Parler-TTS ミニ版の多言語拡張で、8つのヨーロッパ言語のテキスト読み上げをサポートします。

音声合成

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語音声合成 #話者カスタマイズ #高品質音声生成

ダウンロード数 3,020

リリース時間 : 11/22/2024

モデル概要

これは微調整されたテキスト読み上げモデルで、英語、フランス語、スペイン語、ポルトガル語、ポーランド語、ドイツ語、イタリア語、オランダ語をサポートします。モデルはテキストプロンプトで音声特徴を制御し、特定の話者の一貫性をサポートします。

モデル特徴

多言語サポート

英語、フランス語、スペイン語など8つのヨーロッパ言語のテキスト読み上げをサポートします。

話者一貫性

特定の話者名で一貫した音声特徴を生成できます。

高品質音声

テキストプロンプトで高品質な音声を生成し、話速やピッチなどの特徴を調整できます。

オープンソース

データセット、前処理、トレーニングコード、重みを含め完全にオープンソースです。

モデル能力

テキスト読み上げ

多言語音声生成

音声特徴制御

話者一貫性

使用事例

音声合成

多言語音声アシスタント

多言語音声アシスタントのための自然な音声を生成します。

高品質な音声出力を生成

オーディオブック

さまざまな言語のオーディオブック用音声を生成します。

複数言語の音声生成をサポート

🚀 Parler-TTS Mini Multilingual v1.1

Parler-TTS Mini Multilingual v1.1 は、Parler-TTS Mini の多言語拡張版です。このモデルは、テキストを音声に変換する機能を持ち、複数の言語に対応しています。

🚨 Mini Multilingual v1 と比較して、このバージョンは一貫した話者名とより良い説明形式で学習されています。🚨

これは微調整されたバージョンで、CML-TTS のクリーン化バージョンと Multilingual LibriSpeech の非英語版で学習されています。全体で、約9,200時間の非英語データが含まれています。英語の機能を維持するために、LibriTTS-R English dataset も追加されており、これは約580時間の高品質な英語データです。

Parler-TTS Mini Multilingual は、英語、フランス語、スペイン語、ポルトガル語、ポーランド語、ドイツ語、イタリア語、オランダ語の8つのヨーロッパ言語で話すことができます。

より良いプロンプトトークナイザ のおかげで、他の言語にも簡単に拡張できます。このトークナイザは語彙が豊富で、バイトフォールバックを処理するため、多言語学習が簡素化されています。

🚨 この成果は、HuggingFaceオーディオチーム と Quantum Squadra チーム の共同作業の結果です。また、AI4Bharat チーム もトークン化の改善に助言と支援を提供しました。🚨

🚀 クイックスタート

📖 クイックインデックス

👨‍💻 インストール
🎲 ランダムな声の使用
🎯 特定の話者の使用
動機
推論の最適化

🛠️ 使用方法

🚨 以前のバージョンのParler-TTSとは異なり、ここでは2つのトークナイザを使用します。1つはプロンプト用、もう1つは説明用です。🚨

👨‍💻 インストール

Parler-TTSを使用するのは、「bonjour」と言うのと同じくらい簡単です。ライブラリを一度インストールするだけです。

pip install git+https://github.com/huggingface/parler-tts.git

🎲 ランダムな声の使用

Parler-TTS Mini Multilingual は、簡単なテキストプロンプトで制御できる特徴を持つ音声を生成するように学習されています。例えば：

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-multilingual-v1.1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-multilingual-v1.1")
description_tokenizer = AutoTokenizer.from_pretrained(model.config.text_encoder._name_or_path)

prompt = "Salut toi, comment vas-tu aujourd'hui?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."

input_ids = description_tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

🎯 特定の話者の使用

生成間で話者の一貫性を確保するために、このチェックポイントは16人の話者についても学習されており、名前（例：Daniel、Christine、Richard、Nicoleなど）で特徴付けられています。

この機能を利用するには、使用する話者を指定するようにテキスト説明を調整するだけです。例えば、Daniel's voice is monotone yet slightly fast in delivery, with a very close recording that almost has no background noise.

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-multilingual-v1.1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-multilingual-v1.1")
description_tokenizer = AutoTokenizer.from_pretrained(model.config.text_encoder._name_or_path)

prompt = "Salut toi, comment vas-tu aujourd'hui?"
description = "Daniel's voice is monotone yet slightly fast in delivery, with a very close recording that almost has no background noise."

input_ids = description_tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

以下のリストから話者を選択することができます。

言語	話者名	学習に使用された出現回数
オランダ語	Mark	460066
	Jessica	4438
	Michelle	83
フランス語	Daniel	10719
	Michelle	19
	Christine	20187
	Megan	695
ドイツ語	Nicole	53964
	Christopher	1671
	Megan	41
	Michelle	12693
イタリア語	Julia	2616
	Richard	9640
	Megan	4
ポーランド語	Alex	25849
	Natalie	9384
ポルトガル語	Sophia	34182
	Nicholas	4411
スペイン語	Steven	74099
	Olivia	48489
	Megan	12

ヒント:

生成を高速化するために、推論ガイドを用意しています。SDPA、torch.compile、バッチ処理、ストリーミングなどを考慮しています。
最高品質の音声を生成するには、「very clear audio」という用語を含め、高レベルの背景雑音を生成するには、「very noisy audio」を使用します。
句読点を使用して、生成の韻律を制御することができます。例えば、コンマを使用して、音声に小さな休止を追加します。
残りの音声特徴（性別、話す速度、音高、残響）は、プロンプトを通じて直接制御することができます。

動機

Parler-TTSは、Stability AIのDan Lythとエジンバラ大学のSimon Kingによる論文 Natural language guidance of high-fidelity text-to-speech with synthetic annotations の再現です。

他のTTSモデルとは異なり、Parler-TTSは 完全にオープンソース で公開されています。すべてのデータセット、前処理、学習コード、重みが許容的なライセンスの下で公開されており、コミュニティが私たちの成果を基にして独自の強力なTTSモデルを開発することができます。

Parler-TTSは、以下のものとともに公開されています。

The Parler-TTS repository - 独自のバージョンのモデルを学習および微調整することができます。
The Data-Speech repository - 音声データセットに注釈を付けるためのユーティリティスクリプトのセットです。
The Parler-TTS organization - 注釈付きのデータセットや将来のチェックポイントを見つけることができます。

引用

このリポジトリが役に立った場合は、この成果と元のStability AIの論文を引用していただけると幸いです。

@misc{lacombe-etal-2024-parler-tts,
  author = {Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi},
  title = {Parler-TTS},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/huggingface/parler-tts}}
}

@misc{lyth2024natural,
      title={Natural language guidance of high-fidelity text-to-speech with synthetic annotations},
      author={Dan Lyth and Simon King},
      year={2024},
      eprint={2402.01912},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}