🚀 スピーチT5 TTS クロアチア語版
このモデルは、クロアチア語に特化したSpeechT5のテキスト音声合成モデルのファインチューニング版です。
🚀 クイックスタート
このモデルは、クロアチア語のテキストを音声に変換するために最適化されています。
✨ 主な機能
- テキストを音声に変換することができます。
- 異なる声の間での変換や音声の改善も可能です。
📦 インストール
このモデルはtransformers
ライブラリを使用しています。以下のコマンドでインストールできます。
pip install transformers
📚 ドキュメント
モデル
SpeechT5は、LibriTTSデータセットで音声合成(テキスト音声合成)用にファインチューニングされたモデルです。このモデルは、自然言語処理のみに対応した成功したT5モデル(Text-To-Text Transfer Transformer)のアップグレード版として作成されました。このモデルは、Microsoftの研究グループによって、科学論文「SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing」(https://arxiv.org/abs/2110.07205)で最初に提示されました。
SpeechT5モデルは、上記の科学論文で行われた広範な評価により、自動音声認識、音声合成、音声翻訳、音声変換、音声強化、話者識別を含む幅広い音声処理タスクで非常に良好な結果を示したために選ばれました。
SpeechT5は、1つのアーキテクチャに3種類の音声モデルを含んでいます。このモデルは以下の変換に使用できます。
- 音声をテキストに変換 - 自動音声認識または話者識別用
- テキストを音声に変換 - 音声合成用
- 音声を音声に変換 - 異なる声の間の変換や音声の改善用
SpeechT5モデルは、エンコーダとデコーダの共通ネットワークと、処理されるデータの特定のモダリティ(音声/テキスト)に固有の追加の6つのニューラルネットワークで構成されています。SpeechT5モデルの独特な点は、最初に異なる音声テキストおよびテキスト音声データモダリティで事前学習されることで、テキストと音声の両方の統一された表現空間で学習することができます。このようにして、モデルはテキストと音声から同時に学習します。これにより、事前学習されたモデルを、テキスト音声合成などのさまざまなタスクに対して、旧ユーゴスラビア諸言語(モンテネグロ語、セルビア語、ボスニア語、クロアチア語)でファインチューニングすることができます。
データセット
LibriTTS (https://www.openslr.org/60/) は、Heiga ZenがGoogle SpeechおよびGoogle Brainチームのメンバーの助けを借りて作成した、約585時間の英語音声のマルチスピーカー英語コーパスです。このコーパスは、TTS(テキスト音声合成)研究用に設計されています。元のLibriSpeechコーパス (https://www.openslr.org/12/) - LibriVoxのmp3音声ファイルとProject Gutenbergのテキストファイルから派生しています。
科学論文のリンクで公開されているVoxPopuliデータセットには以下が含まれています。
- 23の言語について40万時間の未タグ付き音声データ
- 16の言語について1800時間の文字起こし音声データ
- 17300時間の「音声音声」データ
- 外国語アクセントの英語研究用の、非ネイティブ英語話者の29時間の文字起こし音声データ
🔧 技術詳細
SpeechT5モデルの実験的なトレーニングは、基本モデルをテキスト音声変換に適用する目的で行われました。
元のSpeechT5モデルは英語のタスクのみでトレーニングされていたため(LibriTTSデータセット)、利用可能なクロアチア語のデータで新しいモデルのトレーニングを実装する必要がありました。この用途に最も人気のあるオープンデータセットの1つはVoxPopuliセットで、2009年から2020年までの欧州議会の音声録音が含まれています。すべての地域言語のデータが必要な程度に利用できないため、最も多く表されているクロアチア語のデータがVoxPopuliデータセットから取得されました。プロジェクトの次の段階では、モンテネグロ語、セルビア語、ボスニア語のデータが収集され、トレーニングの品質とモデルの精度を向上させる予定です。
最終的なデータセットは、43時間の文字起こし音声、83人の異なる話者、337万の文字起こしトークン(1トークン = 3/4単語)で構成されています。
技術的な実装の最初の段階では、データセットはSpeechT5モデルのトレーニングに適合させ、標準化するためにいくつかの処理段階を経ました。データ処理方法は、自然言語処理の分野における言語データ操作の標準的な方法(語彙形成、トークン化、サポートされていない文字/文字の削除または変換、テキスト/音声のクリーニング、テキストの正規化)に属しています。
次の段階では、VoxPopuliデータセットの話者の統計が分析され、それに基づいて、満足できるテキスト/音声品質とモデルトレーニングに十分なサンプル数を持つ話者が選択されました。この段階では、データセットのバランス調整が行われ、高品質のテキスト/音声サンプルを持つ男性と女性の話者がトレーニングで均等に表されるようになりました。
データの準備が完了した後、モデルのトレーニングを迅速かつ効率的に、満足できる精度で実行できるようにするために必要なSpeechT5モデルのハイパーパラメータの調整と最適化が開始されました。最適なハイパーパラメータを取得するためにいくつかの実験的なトレーニングセッションが実施され、それらはモデルの評価段階で使用されました。
テスト用に用意されたデータセットでのモデルの評価は、有望な結果を示しました。モデルは用意されたデータセットで学習を開始しましたが、特定の制限も示しました。主な制限は、入力テキストシーケンスの長さに関連しています。モデルは、長い入力テキストシーケンス(20語を超える)の音声を生成できないことが示されました。この制限は、入力シーケンスを小さな単位に分割し、その形式でモデルに渡して処理することで克服されました。この制限が発生する主な理由は、主に、可能な限り最良の結果を得るためにモデルをファインチューニングするために必要な大量のデータが不足していることにあります。
📄 ライセンス
このプロジェクトはMITライセンスの下でライセンスされています。