StyleTTS2-liteオープンソーステキスト読み上げモデル - 無料でデプロイし、簡素化されたプロセスで簡単に利用

ホーム

Styletts2 Lite

dangtr0408によって開発

StyleTTS 2の軽量バージョンで、テキスト読み上げタスクに特化し、複雑さを低減するため複数のコンポーネントを削除しました。

音声合成英語オープンソースライセンス:MIT #軽量TTS #LibriTTS最適化 #拡散モデルなし

ダウンロード数 22

リリース時間 : 4/19/2025

モデル概要

これはStyleTTS 2ベースの軽量テキスト読み上げモデルで、PLBertや拡散モデルなどのコンポーネントを削除し、コア機能を保持しています。効率的な音声合成が必要なアプリケーションに適しています。

モデル特徴

軽量化設計

PLBert、拡散モデル、韻律エンコーダーなどのコンポーネントを削除し、モデルの複雑さを大幅に低減

効率的なトレーニング

LibriTTSコーパスで100,000ステップトレーニングし、音声合成品質を最適化

モジュール化アーキテクチャ

デコーダー、予測器、スタイルエンコーダー、テキストエンコーダーを含む明確なコンポーネント分割

モデル能力

英語テキスト読み上げ

音声スタイル制御

効率的な音声合成

使用事例

音声合成

オーディオブック生成

テキストコンテンツを自然な音声に変換し、オーディオブック制作に使用

自然で流暢な英語音声を生成

音声アシスタント

スマートデバイス向けに音声合成機能を提供

リアルタイムで応答音声を生成

🚀 StyleTTS 2 - lite

StyleTTS 2 - liteは、テキストを音声に変換するモデルです。このモデルは、Hugging Face Spaces上でオンラインデモを公開しており、またGitHub上でファインチューニングの手順も公開されています。

🚀 クイックスタート

オンラインデモ

Hugging Face Spaces上でこのモデルを試すことができます。 StyleTTS2-lite-space

ファインチューニング

ファインチューニングの詳細はGitHubリポジトリを参照してください。 StyleTTS2-lite

✨ 主な機能

テキストを自然な音声に変換することができます。
モデルの軽量化が行われており、高速に音声合成が可能です。

📦 インストール

前提条件

Python：バージョン3.7以上
Git：リポジトリをクローンするために必要

インストール手順

リポジトリをクローンします。

git clone https://huggingface.co/dangtr0408/StyleTTS2-lite
cd StyleTTS2-lite

依存関係をインストールします。

pip install -r requirements.txt

Linuxの場合、espeakを手動でインストールします。

sudo apt-get install espeak-ng

💻 使用例

使用例についてはrun.ipynbファイルを参照してください。

📚 ドキュメント

学習詳細

ベースチェックポイント：LibriTTSで事前学習された公式のStyleTTS 2の重みから初期化されます。
コンポーネントの削除：PLBert、Diffusion、Prosodic Encoder、SLM、およびSpectral Normalizationが削除されています。
学習データ：LibriTTSコーパスを使用して学習されました。
学習スケジュール：100,000ステップで学習されました。

モデルアーキテクチャ

コンポーネント	パラメータ数
Decoder	54,289,492
Predictor	16,194,612
Style Encoder	13,845,440
Text Encoder	5,612,320
合計	89,941,576

⚠️ 注意事項

⚠️ 重要提示

これらの事前学習モデルを使用する前に、合成した音声サンプルが事前学習モデルによって合成されたものであることをリスナーに通知することに同意する必要があります。ただし、合成する音声の使用許可を取得している場合は除きます。つまり、合成音声を公開する前に、話者が直接またはライセンスによって音声のクローンを許可している音声のみを使用することに同意する必要があります。また、音声の使用許可を取得していない場合は、これらの音声が合成されたものであることを公に宣言する必要があります。