xphonebert - baseオープンソース多言語モデル - 約100言語のテキストを音声に変換する無料サービス

ホーム

Xphonebert Base

vinaiによって開発

XPhoneBERTはテキスト音声変換(TTS)向けの音素表現事前学習多言語モデルとして初めて開発され、BERT-baseアーキテクチャを基盤とし、約100言語の3億3千万の音素レベル文で訓練されています。

音声合成

Transformers

オープンソースライセンス:MIT #多言語音素表現 #テキスト音声変換最適化 #韻律強化

ダウンロード数 7,561

リリース時間 : 4/13/2023

モデル概要

XPhoneBERTはテキスト音声変換(TTS)タスク向けに設計された事前学習済み多言語音素表現モデルで、TTSモデルの自然さと韻律面での性能向上が可能です。

モデル特徴

多言語サポート

約100言語と地域の音素表現学習をサポート

音素レベル事前学習

3億3千万の音素レベル文で事前学習し、TTSタスクの性能を最適化

TTS品質向上

入力音素エンコーダーとして使用することで、TTSモデルの自然さと韻律表現を大幅に向上

低リソース適応

限られた訓練データでも比較的高品質な音声を生成可能

モデル能力

音素シーケンスエンコーディング

多言語テキストから音素への変換

TTSモデル性能向上

使用事例

音声合成

高品質TTSシステム

フロントエンド音素エンコーダーとしてTTSシステムに統合

合成音声の自然さと韻律表現を向上

低リソース言語TTS

訓練データが限られた言語でTTSシステムを構築

比較的高品質な音声出力を生成

🚀 XPhoneBERT : 音素表現のための事前学習済み多言語モデル（テキスト音声合成用）

XPhoneBERTは、テキスト音声合成（TTS）のための音素表現に特化した初の事前学習済み多言語モデルです。XPhoneBERTはBERT-baseと同じモデルアーキテクチャを持ち、RoBERTaの事前学習アプローチを用いて、約100の言語と地域の3億3000万の音素レベルの文章で学習されています。実験結果によると、XPhoneBERTを入力音素エンコーダとして使用することで、強力なニューラルTTSモデルの自然性と韻律の性能が大幅に向上し、限られた学習データでもかなり高品質な音声を生成するのに役立ちます。

XPhoneBERTの一般的なアーキテクチャと実験結果については、INTERSPEECH 2023の論文で確認できます。

@inproceedings{xphonebert,
title     = {{XPhoneBERT: A Pre-trained Multilingual Model for Phoneme Representations for Text-to-Speech}},
author    = {Linh The Nguyen and Thinh Pham and Dat Quoc Nguyen},
booktitle = {Proceedings of the 24th Annual Conference of the International Speech Communication Association (INTERSPEECH)},
year      = {2023},
pages     = {5506--5510}
}

XPhoneBERTを使用して公開された結果を生成したり、他のソフトウェアに組み込んだりする場合は、必ず当該論文を引用してください。

詳細情報やリクエストについては、XPhoneBERTのホームページをご覧ください！

🚀 クイックスタート

📦 インストール

transformersをpipでインストールします: pip install transformers、またはソースからインストールします。
text2phonemesequenceをインストールします: pip install text2phonemesequence。
当社のtext2phonemesequenceパッケージは、テキストシーケンスを音素レベルのシーケンスに変換するためのもので、多言語音素レベルの事前学習データの構築に使用されています。text2phonemesequenceは、CharsiuG2Pとsegmentsのツールキットを組み込んで構築されており、それぞれテキストから音素への変換と音素のセグメンテーションを行います。

⚠️ 重要提示

各言語のtext2phonemesequenceを初期化するには、対応するISO 639-3コードが必要です。サポートされている言語のISO 639-3コードはこちらで確認できます。

text2phonemesequenceは単語分割されたシーケンスを入力として受け取ります。また、ユーザーはtext2phonemesequenceに入力する前に、単語分割されたシーケンスに対してテキスト正規化を行うこともできます。事前学習データを作成する際、各言語のすべてのテキストドキュメントに対して、ベトナム語を除いてspaCyツールキットを使用して単語と文の分割を行いました。ベトナム語についてはVnCoreNLPツールキットを使用しました。また、英語、ドイツ語、スペイン語、中国語についてはNVIDIA NeMoツールキットのテキスト正規化コンポーネントを、ベトナム語についてはVinormのテキスト正規化パッケージを使用しました。

事前学習済みモデル

プロパティ	詳細
モデル名	`vinai/xphonebert-base`
パラメータ数	88M
アーキテクチャ	base
最大長	512
事前学習データ	約100の言語と地域の3億3000万の音素レベルの文章

💻 使用例

基本的な使用法

from transformers import AutoModel, AutoTokenizer
from text2phonemesequence import Text2PhonemeSequence

# Load XPhoneBERT model and its tokenizer
xphonebert = AutoModel.from_pretrained("vinai/xphonebert-base")
tokenizer = AutoTokenizer.from_pretrained("vinai/xphonebert-base")

# Load Text2PhonemeSequence
# text2phone_model = Text2PhonemeSequence(language='eng-us', is_cuda=True)
text2phone_model = Text2PhonemeSequence(language='jpn', is_cuda=True)

# Input sequence that is already WORD-SEGMENTED (and text-normalized if applicable)
# sentence = "That is , it is a testing text ."  
sentence = "これ は 、 テスト テキスト です ."

input_phonemes = text2phone_model.infer_sentence(sentence)

input_ids = tokenizer(input_phonemes, return_tensors="pt")

with torch.no_grad():
    features = xphonebert(**input_ids)