mms - tts - finオープンソースのフィンランド語テキスト読み上げモデル

ホーム

Mms Tts Fin

facebookによって開発

Facebookが開発したフィンランド語テキスト音声変換モデルで、VITSアーキテクチャに基づき、高品質なフィンランド語音声合成をサポートします。

音声合成

Transformers

#フィンランド語TTS #エンドツーエンド音声合成 #多言語音声サポート

ダウンロード数 337

リリース時間 : 9/1/2023

モデル概要

このモデルはFacebookの大規模多言語音声(MMS)プロジェクトの一部で、フィンランド語のテキスト音声変換タスク専用です。VITSアーキテクチャを採用したエンドツーエンド音声合成により、入力テキストから自然で流暢な音声波形を生成できます。

モデル特徴

エンドツーエンド音声合成

VITSアーキテクチャを採用し、テキストから直接音声波形を生成するエンドツーエンド合成を実現

多言語サポート

MMSプロジェクトの一部として、複数言語の独立モデルをサポート

表現力豊か

ランダム期間予測器と条件付き事前分布により音声表現力を強化

高品質出力

変分下限と敵対的訓練を組み合わせ、高品質な音声波形を生成

モデル能力

フィンランド語テキスト音声変換

音声波形生成

多様なリズムの音声合成

使用事例

音声アシスタント

フィンランド語音声アシスタント

フィンランド語ユーザーに自然な音声インタラクション体験を提供

自然で流暢なフィンランド語音声を生成

アクセシビリティ技術

テキスト音声読み上げ

視覚障害者がフィンランド語テキストコンテンツを取得するのを支援

書面のフィンランド語を聴覚音声に変換

教育技術

言語学習ツール

フィンランド語学習者に発音のお手本を提供

標準的なフィンランド語発音サンプルを生成

🚀 大規模多言語音声 (MMS): フィンランド語のテキスト読み上げ

このリポジトリには、フィンランド語 (fin) のテキスト読み上げ (TTS) モデルのチェックポイントが含まれています。

このモデルは、Facebookの大規模多言語音声 (Massively Multilingual Speech) プロジェクトの一部であり、多様な言語に対応した音声技術を提供することを目指しています。サポートされている言語とそのISO 639 - 3コードの詳細は、MMS言語カバレッジ概要で確認できます。また、すべてのMMS - TTSチェックポイントはHugging Face Hubの facebook/mms - tts で確認できます。

MMS - TTSは、🤗 Transformersライブラリのバージョン4.33以降で利用可能です。

✨ 主な機能

VITS (Variational Inference with adversarial learning for end - to - end Text - to - Speech) は、入力されたテキストシーケンスに基づいて音声波形を予測するエンドツーエンドの音声合成モデルです。これは、事後エンコーダ、デコーダ、および条件付き事前分布から構成される条件付き変分自己符号化器 (VAE) です。

フローベースのモジュールによって、一連のスペクトログラムベースの音響特徴が予測されます。このモジュールは、Transformerベースのテキストエンコーダと複数の結合層から構成されています。スペクトログラムは、HiFi - GANボコーダと同じように、転置畳み込み層のスタックを使用してデコードされます。同じテキスト入力が複数の方法で話される可能性があるTTS問題の1対多の性質に着目して、このモデルには確率的な持続時間予測器も含まれており、同じ入力テキストから異なるリズムの音声を合成できるようになっています。

モデルは、変分下限と敵対的トレーニングから導出される損失の組み合わせを用いてエンドツーエンドでトレーニングされます。モデルの表現力を向上させるために、条件付き事前分布に正規化フローが適用されます。推論時には、テキストエンコーディングは持続時間予測モジュールに基づいてアップサンプリングされ、その後、フローモジュールとHiFi - GANデコーダのカスケードを使用して波形にマッピングされます。持続時間予測器の確率的な性質のため、モデルは非決定的であり、同じ音声波形を生成するには固定シードが必要です。

MMSプロジェクトでは、各言語に対して個別のVITSチェックポイントがトレーニングされています。

📦 インストール

MMS - TTSは、🤗 Transformersライブラリのバージョン4.33以降で利用可能です。このチェックポイントを使用するには、まずライブラリの最新バージョンをインストールします。

pip install --upgrade transformers accelerate

💻 使用例

基本的な使用法

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("facebook/mms-tts-fin")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-fin")

text = "some example text in the Finnish language"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

生成された波形は、.wav ファイルとして保存できます。

import scipy

scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)

または、Jupyter Notebook / Google Colabで表示することもできます。

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

📚 ドキュメント

BibTex引用

このモデルは、Meta AIのVineel Pratapらによって開発されました。このモデルを使用する場合は、MMSの論文を引用することを検討してください。

@article{pratap2023mms,
    title={Scaling Speech Technology to 1,000+ Languages},
    author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
    journal={arXiv},
    year={2023}
}