japanese_speecht5_ttsオープンソースモデル - 日语文本を素早く自然な音声に変換するのをサポート

ホーム

Japanese Speecht5 Tts

esnyaによって開発

JVS日本語音声コーパスでファインチューニングされたSpeechT5モデル、日本語テキスト音声変換(TTS)タスクに特化

音声合成

Transformers

日本語#日本語TTS #マルチスピーカー埋め込み #OpenJtalk分かち書き

ダウンロード数 296

リリース時間 : 8/8/2023

モデル概要

このモデルはJVSデータセットでファインチューニングされ、日本語テキストから音声への変換をサポートし、16次元のスピーカー埋め込みベクトルを使用して特定の話者に依存しない汎用的な音質を実現します。

モデル特徴

日本語専用音声合成

日本語に最適化された音声合成モデルで、JVS日本語音声コーパスで訓練されています

話者非依存設計

16次元のスピーカー埋め込みベクトルを採用し、特定の話者に依存しない汎用的な音質を実現

改良型分かち書き

Open Jtalk技術を改良した分かち書きツールを使用し、日本語テキストをより正確に処理できます

モデル能力

日本語テキスト音声変換

音声合成

複数の話者音色をサポート

使用事例

音声合成アプリケーション

オーディオブック生成

日本語テキストを自然な音声に変換し、オーディオブック制作に利用

人間の音声に近い音声出力を生成

音声アシスタント

日本語音声アシスタントに音声合成機能を提供

異なる音色の音声応答を生成可能

🚀 日本語用SpeechT5 (TTSタスク)

このモデルは、JVS データセットを使用して、日本語の音声合成（テキスト読み上げ）用に微調整されたSpeechT5モデルです。JVSデータセットには100人の話者が含まれており、このデータセットから話者埋め込みを作成し、男性と女性の声のタイプに基づいて分離し、独自の話者埋め込みベクトルを生成します。この16次元の話者埋め込みベクトルは、特定の話者に依存しない音質を提供することを目的として設計されています。

このモデルは microsoft/speecht5_tts から学習され、Open Jtalk を使用したトークナイザーが改良されています。

🚀 クイックスタート

必要条件のインストール

pip install transformers sentencepiece pyopnjtalk # or pyopenjtalk-prebuilt

改良コードのダウンロード

curl -O https://huggingface.co/esnya/japanese_speecht5_tts/resolve/main/speecht5_openjtalk_tokenizer.py

使用例

(SpeechToTextPipeline はまだリリースされていません。)

import numpy as np
from transformers import (
    SpeechT5ForTextToSpeech,
    SpeechT5HifiGan,
    SpeechT5FeatureExtractor,
    SpeechT5Processor,
)
from speecht5_openjtalk_tokenizer import SpeechT5OpenjtalkTokenizer
import soundfile
import torch

model_name = "esnya/japanese_speecht5_tts"
with torch.no_grad():

    model = SpeechT5ForTextToSpeech.from_pretrained(
        model_name, device_map="cuda", torch_dtype=torch.bfloat16
    )

    tokenizer = SpeechT5OpenjtalkTokenizer.from_pretrained(model_name)
    feature_extractor = SpeechT5FeatureExtractor.from_pretrained(model_name)
    processor = SpeechT5Processor(feature_extractor, tokenizer)
    vocoder = SpeechT5HifiGan.from_pretrained(
        "microsoft/speecht5_hifigan", device_map="cuda", torch_dtype=torch.bfloat16
    )

    input = "吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。"
    input_ids = processor(text=input, return_tensors="pt").input_ids.to(model.device)

    speaker_embeddings = np.random.uniform(
        -1, 1, (1, 16)
    )  # (batch_size, speaker_embedding_dim = 16), first dimension means male (-1.0) / female (1.0)
    speaker_embeddings = torch.FloatTensor(speaker_embeddings).to(
        device=model.device, dtype=model.dtype
    )

    waveform = model.generate_speech(
        input_ids,
        speaker_embeddings,
        vocoder=vocoder,
    )

    waveform = waveform / waveform.abs().max()  # normalize
    waveform = waveform.reshape(-1).cpu().float().numpy()

    soundfile.write(
        "output.wav",
        waveform,
        vocoder.config.sampling_rate,
    )

✨ 主な機能

日本語音声合成：JVSデータセットを使用して日本語の音声合成に特化しています。
改良トークナイザー：Open Jtalkを使用したトークナイザーが改良され、より正確な音声合成を実現します。

📚 ドキュメント

モデルの説明

詳細は元のモデルカードを参照してください。改良コードはMITライセンスの下で提供されています。

背景

このモデルを開発した動機は、SpeechT5 TTSにおける日本語生成モデルの不足にあります。また、Open Jtalk (pyopenjtalk) のg2p機能を利用することで、英語モデルに近い語彙を実現できました。特にトークナイザーに特殊な修正と改良を加え、発音以外の文字を個別に抽出して保持することで、より正確なテキスト読み上げ変換を実現しています。

制限事項

このモデルには、複数の文を入力した場合、後半部分に長い無音が生じるという既知の問題があります。この問題が解決されるまでの暫定的な解決策として、各文を個別に分割して生成することをおすすめします。

📄 ライセンス

モデルは JVS Corpus のライセンスを引き継いでいます。

🔗 関連文献

Shinnosuke Takamichi, Kentaro Mitsui, Yuki Saito, Tomoki Koriyama, Naoko Tanji, and Hiroshi Saruwatari, "JVS corpus: free Japanese multi-speaker voice corpus," arXiv preprint, 1908.06248, Aug. 2019.