Swaramオープンソースマラヤーラム語音声合成モデル - テキストを入力すると高品質の音声波形を生成できます

ホーム

Swaram

aoxoによって開発

Swaramは先進的なマラヤーラム語音声合成モデルで、入力テキストから高品質な音声波形を生成できます。

音声合成

Safetensors

その他#マラヤーラム語合成 #変分オートエンコーダ #ランダム持続時間予測

ダウンロード数 735

リリース時間 : 12/10/2024

モデル概要

このモデルは条件付き変分オートエンコーダ(VAE)アーキテクチャに基づいており、マラヤーラム語テキスト音声変換タスク向けに設計されており、自然で流暢な音声出力を生成できます。

モデル特徴

変分オートエンコーダアーキテクチャ

条件付き変分オートエンコーダをコアアーキテクチャとして採用し、音声合成における多様性を捉えることが可能

ランダム持続時間予測

組み込みのランダム持続時間予測器により、同じテキストでも異なるリズムの音声出力を生成可能

高品質波形生成

転置畳み込み層スタックを通じてスペクトログラムを高品質な音声波形に変換

モデル能力

マラヤーラム語テキスト音声変換

音声波形生成

多様な音声合成

使用事例

音声アプリケーション

音声アシスタント

マラヤーラム語音声アシスタントに自然な音声合成機能を提供

自然で流暢な音声出力を生成

オーディオブック

マラヤーラム語テキストを音声に変換してオーディオブック制作に利用

多様な発音スタイルをサポート

🚀 マラヤーラム語のテキスト音声合成

このリポジトリには、Swaram (mal) のテキスト音声合成（TTS）モデルのチェックポイントが含まれています。

🚀 クイックスタート

このモデルを使用する前に、必要なライブラリをインストールする必要があります。以下のコマンドを実行してください。

pip install --upgrade transformers accelerate

その後、以下のコードスニペットを使用して推論を実行できます。

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("aoxo/swaram")
tokenizer = AutoTokenizer.from_pretrained("aoxo/swaram")

text = "കള്ളാ കടയാടി മോനെ"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

生成された波形は、.wav ファイルとして保存できます。

import scipy

scipy.io.wavfile.write("kadayadi_mone.wav", rate=model.config.sampling_rate, data=output)

または、Jupyter Notebook / Google Colab で表示することもできます。

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

✨ 主な機能

Swaram（Stochastic Waveform Adaptive Recurrent Autoencoder for Malayalam）は、入力テキストシーケンスに基づいて音声波形を生成する高度な音声合成モデルです。このモデルは、条件付き変分自己符号化器（VAE）アーキテクチャに基づいています。

Swaram のテキストエンコーダは、Wav2Vec2 デコーダをベースに構築されています。デコーダとして VAE が使用されています。フローベースのモジュールが、Transformer ベースのコンテキスチュアライザーとカスケード型の密結合層で構成され、スペクトログラムベースの音響特徴量を予測します。その後、スペクトログラムは、一連の転置畳み込み層を使用して音声波形に変換されます。同じテキストが複数の方法で話される TTS の1対多の性質を捉えるために、このモデルには確率的な持続時間予測器も含まれており、同じテキスト入力から様々な音声リズムを生成できます。