torchaudio_tacotron2_kss開源韓語文本轉語音模型

首頁

Torchaudio Tacotron2 Kss

由Bingsu開發

基於kss數據集訓練的Tacotron2韓語文本轉語音模型

語音合成

Transformers

韓語開源協議:其他 #韓語語音合成 #Tacotron2架構 #高保真音質

下載量 28

發布時間 : 12/9/2022

模型概述

這是一個基於PyTorch的Tacotron2架構的文本轉語音模型，專門針對韓語進行訓練，使用kss數據集。

模型特點

韓語優化

專門針對韓語語音特性進行訓練，使用kss數據集

Tacotron2架構

採用成熟的Tacotron2架構，提供高質量的語音合成

輕量級部署

模型相對輕量，適合多種部署場景

模型能力

韓語文本轉語音

高質量語音合成

使用案例

語音合成應用

韓語語音助手

為韓語語音助手提供自然語音輸出

示例音頻顯示流暢自然的韓語發音

有聲讀物生成

將韓語文本轉換為有聲讀物

🚀 Torchaudio_Tacotron2_kss

Torchaudio_Tacotron2_kss是基於torchaudio Tacotron2模型，在kss數據集上訓練得到的文本轉語音模型。

🚀 快速開始

本項目是一個文本轉語音模型，使用Torchaudio的Tacotron2架構，在kss數據集上訓練。下面將為你介紹使用該模型的具體步驟。

📦 安裝指南

在使用該模型前，你需要安裝必要的依賴庫，具體安裝命令如下：

pip install torch torchaudio transformers phonemizer

同時，你還需要安裝 espeak-ng。

⚠️ 重要提示

如果你使用的是Windows系統，需要設置額外的環境變量，詳情請見：https://github.com/bootphon/phonemizer/issues/44

💻 使用示例

基礎用法

以下代碼展示瞭如何加載模型和分詞器：

import torch
from transformers import AutoModel, AutoTokenizer

repo = "Bingsu/torchaudio_tacotron2_kss"
model = AutoModel.from_pretrained(
    repo,
    trust_remote_code=True,
    revision="589d6557e8b4bb347f49de74270541063ba9c2bc"
    )
tokenizer = AutoTokenizer.from_pretrained(repo)
model.eval()

以下代碼展示瞭如何加載聲碼器：

vocoder = torch.hub.load("seungwonpark/melgan:aca59909f6dd028ec808f987b154535a7ca3400c", "melgan", trust_repo=True, pretrained=False)
url = "https://huggingface.co/Bingsu/torchaudio_tacotron2_kss/resolve/main/melgan.pt"
state_dict = torch.hub.load_state_dict_from_url(url)
vocoder.load_state_dict(state_dict)

⚠️ 重要提示

這裡使用的聲碼器與原始的 seungwonpark/melgan 相同，但權重位於cuda上，因此需要單獨加載。

以下代碼展示瞭如何輸入文本並進行推理：

text = "반갑습니다 타코트론2입니다."
inp = tokenizer(text, return_tensors="pt", return_length=True, return_attention_mask=False)

以下代碼展示瞭如何進行推理並生成音頻：

with torch.inference_mode():
    out = model(**inp)
    audio = vocoder(out[0])

以下代碼展示瞭如何播放生成的音頻：

import IPython.display as ipd

ipd.Audio(audio[0].numpy(), rate=22050)

你也可以點擊下面的鏈接試聽示例音頻：

📄 許可證

代碼：遵循MIT許可證。
pytorch_model.bin 權重：遵循CC BY - NC - SA 4.0（kss數據集的許可證）。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫