Metaがmms-tts-ttq-script_tifinaghモデルをオープンソース化 - タマハク語方言のテキストから音声への変換を実現

ホーム

Mms Tts Ttq Script Tifinagh

facebookによって開発

Meta社が開発したタマハク語-タワラマット方言テキスト読み上げモデルで、ティフィナグ文字をサポートし、大規模多言語音声プロジェクトの一部です。

音声合成

Transformers

#タマハク語TTS #変分推論音声合成 #ティフィナグ文字サポート

ダウンロード数 283

リリース時間 : 9/1/2023

モデル概要

このモデルはVITSアーキテクチャに基づくエンドツーエンドのテキスト読み上げシステムで、タマハク語のタワラマット方言専用に設計されており、テキストを自然な音声に変換できます。

モデル特徴

多言語サポート

MMSプロジェクトの一部として、希少言語を含む複数言語の音声合成をサポートします。

エンドツーエンドアーキテクチャ

VITSアーキテクチャを採用し、変分推論と敵対学習を組み合わせて高品質な音声合成を実現します。

表現力強化

ランダム期間予測器と正規化フロー技術により、合成音声の表現力と多様性を向上させます。

モデル能力

テキスト読み上げ

多言語音声合成

エンドツーエンド音声生成

使用事例

言語保護

少数民族言語のデジタル化

タマハク語などの少数民族言語にデジタル音声サポートを提供

絶滅危機言語の保護と普及を促進

支援技術

音声支援システム

タマハク語話者向けの音声支援アプリケーションを開発

言語アクセシビリティの向上

🚀 大量多言語音声 (MMS): タマジャク語、タワラマット語のテキスト音声合成

このリポジトリには、タマジャク語、タワラマット語 (ttq-script_tifinagh) のテキスト音声合成 (TTS) モデルのチェックポイントが含まれています。

このモデルは、Facebookの大量多言語音声プロジェクトの一部であり、多様な言語に対応した音声技術を提供することを目指しています。サポートされている言語とそのISO 639-3コードの詳細については、MMS言語カバレッジ概要を参照できます。また、すべてのMMS-TTSチェックポイントはHugging Face Hubの facebook/mms-tts で確認できます。

MMS-TTSは、🤗 Transformersライブラリのバージョン4.33以降で利用可能です。

✨ 主な機能

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) は、入力されたテキストシーケンスに基づいて音声波形を予測するエンドツーエンドの音声合成モデルです。これは、事後エンコーダ、デコーダ、および条件付き事前分布から構成される条件付き変分オートエンコーダ (VAE) です。

Transformerベースのテキストエンコーダと複数の結合層から構成されるフローベースのモジュールによって、スペクトログラムベースの音響特徴量のセットが予測されます。スペクトログラムは、HiFi-GANボコーダと同様のスタイルで、転置畳み込み層のスタックを使用してデコードされます。同じテキスト入力が複数の方法で話される可能性があるTTS問題の1対多の性質に着想を得て、このモデルには確率的持続時間予測器も含まれており、同じ入力テキストから異なるリズムの音声を合成できるようになっています。

このモデルは、変分下界と敵対的トレーニングから導出される損失の組み合わせを用いてエンドツーエンドでトレーニングされます。モデルの表現力を向上させるために、正規化フローが条件付き事前分布に適用されます。推論時には、持続時間予測モジュールに基づいてテキストエンコーディングがアップサンプリングされ、その後、フローモジュールとHiFi-GANデコーダのカスケードを使用して波形にマッピングされます。持続時間予測器の確率的性質により、このモデルは非決定的であり、同じ音声波形を生成するには固定シードが必要です。

MMSプロジェクトでは、各言語に対して個別のVITSチェックポイントがトレーニングされています。

📦 インストール

MMS-TTSは、🤗 Transformersライブラリのバージョン4.33以降で利用可能です。このチェックポイントを使用するには、まずライブラリの最新バージョンをインストールします。

pip install --upgrade transformers accelerate

💻 使用例

基本的な使用法

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("facebook/mms-tts-ttq-script_tifinagh")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-ttq-script_tifinagh")

text = "some example text in the Tamajaq, Tawallammat language"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

生成された波形を .wav ファイルとして保存することができます。

import scipy

scipy.io.wavfile.write("techno.wav", rate=model.config.sampling_rate, data=output)

または、Jupyter Notebook / Google Colabで表示することもできます。

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

📚 ドキュメント

このモデルはMeta AIのVineel Pratapらによって開発されました。このモデルを使用する場合は、MMSの論文を引用することを検討してください。

@article{pratap2023mms,
    title={Scaling Speech Technology to 1,000+ Languages},
    author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
    journal={arXiv},
    year={2023}
}