japanese_speecht5_tts開源模型 - 助力日語文本快速轉為自然語音

首頁

Japanese Speecht5 Tts

由esnya開發

基於JVS日語語音語料庫微調的SpeechT5模型，專攻日語文本轉語音(TTS)任務

語音合成

Transformers

日語#日語TTS #多說話人嵌入 #OpenJtalk分詞

下載量 296

發布時間 : 8/8/2023

模型概述

該模型基於JVS數據集進行微調，支持日語文本到語音的轉換，採用16維說話人嵌入向量實現與特定說話人無關的通用音質表現。

模型特點

日語專用語音合成

專門針對日語優化的語音合成模型，基於JVS日語語音語料庫訓練

說話人無關設計

採用16維說話人嵌入向量，實現與特定說話人無關的通用音質表現

改良分詞器

使用Open Jtalk技術改良的分詞器，能更精確處理日語文本

模型能力

日語文本轉語音

語音合成

支持多種說話人音色

使用案例

語音合成應用

有聲讀物生成

將日語文本轉換為自然語音，用於有聲讀物製作

生成接近人類語音的音頻輸出

語音助手

為日語語音助手提供語音合成能力

可生成不同音色的語音響應

🚀 用於日語的SpeechT5（TTS任務）

本項目是針對日語語音合成（文本轉語音）對SpeechT5模型進行微調的成果，在JVS數據集上完成訓練。該模型利用了包含100位說話者的JVS數據集，從中精心製作了說話者嵌入，根據男女聲類型進行區分，生成了獨特的說話者嵌入向量。這個16維的說話者嵌入向量旨在提供獨立於任何特定說話者的語音質量。

模型基於 microsoft/speecht5_tts 進行訓練，使用由 Open Jtalk 驅動的改進型分詞器。

🚀 快速開始

安裝依賴

pip install transformers sentencepiece pyopnjtalk # or pyopenjtalk-prebuilt

下載修改後的代碼

curl -O https://huggingface.co/esnya/japanese_speecht5_tts/resolve/main/speecht5_openjtalk_tokenizer.py

運行示例代碼

(SpeechToTextPipeline 尚未發佈。)

import numpy as np
from transformers import (
    SpeechT5ForTextToSpeech,
    SpeechT5HifiGan,
    SpeechT5FeatureExtractor,
    SpeechT5Processor,
)
from speecht5_openjtalk_tokenizer import SpeechT5OpenjtalkTokenizer
import soundfile
import torch

model_name = "esnya/japanese_speecht5_tts"
with torch.no_grad():

    model = SpeechT5ForTextToSpeech.from_pretrained(
        model_name, device_map="cuda", torch_dtype=torch.bfloat16
    )

    tokenizer = SpeechT5OpenjtalkTokenizer.from_pretrained(model_name)
    feature_extractor = SpeechT5FeatureExtractor.from_pretrained(model_name)
    processor = SpeechT5Processor(feature_extractor, tokenizer)
    vocoder = SpeechT5HifiGan.from_pretrained(
        "microsoft/speecht5_hifigan", device_map="cuda", torch_dtype=torch.bfloat16
    )

    input = "吾輩は貓である。名前はまだ無い。どこで生れたかとんと見當がつかぬ。"
    input_ids = processor(text=input, return_tensors="pt").input_ids.to(model.device)

    speaker_embeddings = np.random.uniform(
        -1, 1, (1, 16)
    )  # (batch_size, speaker_embedding_dim = 16), first dimension means male (-1.0) / female (1.0)
    speaker_embeddings = torch.FloatTensor(speaker_embeddings).to(
        device=model.device, dtype=model.dtype
    )

    waveform = model.generate_speech(
        input_ids,
        speaker_embeddings,
        vocoder=vocoder,
    )

    waveform = waveform / waveform.abs().max()  # normalize
    waveform = waveform.reshape(-1).cpu().float().numpy()

    soundfile.write(
        "output.wav",
        waveform,
        vocoder.config.sampling_rate,
    )

✨ 主要特性

針對性微調：針對日語語音合成任務對SpeechT5模型進行微調，適配日語語音特點。
多樣化說話者嵌入：利用JVS數據集製作說話者嵌入，區分男女聲類型，生成獨立於特定說話者的語音質量。
改進型分詞器：採用基於Open Jtalk的改進型分詞器，確保更準確的文本轉語音轉換。

📚 詳細文檔

模型描述

請參考原始模型卡片。本項目修改後的代碼遵循MIT許可證。

開發背景

開發此模型的動機源於SpeechT5 TTS中明顯缺乏日語生成模型，或者說此類模型極為稀缺。此外，Open Jtalk（pyopenjtalk）的g2p功能使我們能夠實現與英語模型相近的詞彙表。需要注意的是，特殊修改和增強主要應用於分詞器。與默認設置不同，我們改進後的分詞器會單獨提取並保留除發聲以外的字符，以確保更準確的文本轉語音轉換。

侷限性

該模型存在一個已知問題，當輸入多個句子時，後半部分可能會出現較長的靜音。在問題解決之前，建議將每個句子分開單獨生成，作為臨時解決方案。

📄 許可證

模型繼承了 JVS語料庫的許可證。

🔗 相關文獻

Shinnosuke Takamichi, Kentaro Mitsui, Yuki Saito, Tomoki Koriyama, Naoko Tanji, and Hiroshi Saruwatari, "JVS corpus: free Japanese multi-speaker voice corpus," arXiv preprint, 1908.06248, Aug. 2019.