xm_transformer_s2ut_en - hk開源語音翻譯模型 - 免費實現英語到閩南語直接語音轉換

首頁

Xm Transformer S2ut En Hk

由facebook開發

fairseq開發的英語-閩南語(臺灣話)語音到語音翻譯模型，採用單通道解碼器架構，支持直接語音轉換無需中間文本

語音合成 #英語-閩南語語音翻譯 #直接語音到語音轉換 #TED領域專用

下載量 31

發布時間 : 10/7/2022

模型概述

該模型用於英語與閩南語(臺灣話)之間的直接語音到語音翻譯，採用Transformer架構，結合了語音合成技術實現端到端轉換

模型特點

直接語音轉換

無需中間文本表示，實現端到端的語音到語音翻譯

多數據源訓練

結合TED領域的監督數據及TED與有聲書領域的弱監督數據進行訓練

高質量語音合成

採用unit_hifigan_HK_layer12聲碼器生成自然流暢的語音輸出

模型能力

英語到閩南語語音翻譯

閩南語到英語語音翻譯

跨語言語音轉換

使用案例

語言交流

即時語音翻譯

用於英語和閩南語使用者之間的即時對話翻譯

實現自然流暢的跨語言交流

媒體內容處理

TED演講翻譯

將英語TED演講內容自動翻譯為閩南語版本

擴大內容受眾範圍

🚀 xm_transformer_s2ut_en - hk

這是一個來自fairseq的單遍解碼器（S2UT）語音到語音翻譯模型，主要用於英文和福建話之間的翻譯。該模型使用TED領域的監督數據以及TED和有聲讀物領域的弱監督數據進行訓練。同時，它藉助特定的語音合成工具實現語音輸出。

🚀 快速開始

本模型是基於fairseq的單遍解碼器（S2UT）的語音到語音翻譯模型，具備以下特點：

語言對：支持英文到福建話的翻譯。
訓練數據：使用TED領域的監督數據，以及TED和有聲讀物領域的弱監督數據進行訓練。訓練細節可參考此處。
語音合成：採用[facebook/unit_hifigan_HK_layer12.km2500_frame_TAT - TTS](https://huggingface.co/facebook/unit_hifigan_HK_layer12.km2500_frame_TAT - TTS)進行語音合成。
項目頁面：Project Page

💻 使用示例

基礎用法

import json
import os
from pathlib import Path

import IPython.display as ipd
from fairseq import hub_utils
from fairseq.checkpoint_utils import load_model_ensemble_and_task_from_hf_hub
from fairseq.models.speech_to_text.hub_interface import S2THubInterface
from fairseq.models.text_to_speech import CodeHiFiGANVocoder
from fairseq.models.text_to_speech.hub_interface import VocoderHubInterface

from huggingface_hub import snapshot_download
import torchaudio

cache_dir = os.getenv("HUGGINGFACE_HUB_CACHE")

models, cfg, task = load_model_ensemble_and_task_from_hf_hub(
    "facebook/xm_transformer_s2ut_en-hk",
    arg_overrides={"config_yaml": "config.yaml", "task": "speech_to_text"},
    cache_dir=cache_dir,
)
#model = models[0].cpu()
#cfg["task"].cpu = True
generator = task.build_generator([model], cfg)


# requires 16000Hz mono channel audio
audio, _ = torchaudio.load("/path/to/an/audio/file")

sample = S2THubInterface.get_model_input(task, audio)
unit = S2THubInterface.get_prediction(task, model, generator, sample)

# speech synthesis           
library_name = "fairseq"
cache_dir = (
    cache_dir or (Path.home() / ".cache" / library_name).as_posix()
)
cache_dir = snapshot_download(
    f"facebook/unit_hifigan_HK_layer12.km2500_frame_TAT-TTS", cache_dir=cache_dir, library_name=library_name
)

x = hub_utils.from_pretrained(
    cache_dir,
    "model.pt",
    ".",
    archive_map=CodeHiFiGANVocoder.hub_models(),
    config_yaml="config.json",
    fp16=False,
    is_vocoder=True,
)

with open(f"{x['args']['data']}/config.json") as f:
    vocoder_cfg = json.load(f)
assert (
    len(x["args"]["model_path"]) == 1
), "Too many vocoder models in the input"

vocoder = CodeHiFiGANVocoder(x["args"]["model_path"][0], vocoder_cfg)
tts_model = VocoderHubInterface(vocoder_cfg, vocoder)

tts_sample = tts_model.get_model_input(unit)
wav, sr = tts_model.get_prediction(tts_sample)

ipd.Audio(wav, rate=sr)