Tangoオープンソーステキストto音声モデル - テキストプロンプトに基づいてリアルな人の声や音效などの音声を生成

ホーム

Tango

declare-labによって開発

TANGOは命令誘導拡散に基づくテキストから音声へのモデルで、テキストプロンプトに基づいて人間の声、動物の鳴き声、自然および人工音響を含むリアルな音声を生成できます。

音声生成

Transformers

英語#テキスト駆動型音声生成 #拡散モデルアーキテクチャ #多様なシーン向け音響合成

ダウンロード数 118

リリース時間 : 4/23/2023

モデル概要

TANGOはテキストから音声を生成するための潜在拡散モデルで、テキストエンコーダーとしてFlan-T5を使用し、UNetアーキテクチャに基づく拡散モデルで音声を生成します。

モデル特徴

命令誘導拡散

命令調整大規模言語モデルFlan-T5をテキストエンコーダーとして採用し、正確なテキスト-音声マッピングを実現

高品質音声生成

客観的指標と主観的評価の両方で現在の最先端音声生成モデルを凌駕

多様な音声生成

人間の声、動物の鳴き声、自然および人工音響など、さまざまなタイプの音声生成をサポート

モデル能力

テキストから音声生成

多様な音声合成

高忠実度音声生成

使用事例

マルチメディアコンテンツ制作

映像音響効果生成

脚本の記述に基づいてシーン音響効果を自動生成

リアルな環境音と特殊効果を生成

ゲームオーディオデザイン

ゲームシーン向けに動的音響効果を生成

没入型のゲームオーディオ体験を創造

支援技術

視覚障害者支援

テキスト記述を環境音ヒントに変換

視覚障害者が周囲環境を理解するのを支援

🚀 TANGO: インストラクションガイド付き拡散モデルによるテキストから音声への変換

TANGO は、テキストから音声を生成する潜在拡散モデルです。TANGO は、テキストプロンプトから、人の声、動物の鳴き声、自然音や人工音、そして効果音を含むリアルな音声を生成することができます。凍結されたインストラクションチューニング済みの大規模言語モデルであるFlan - T5をテキストエンコーダとして使用し、音声生成用のUNetベースの拡散モデルを学習させています。客観的および主観的な指標の両方で、現在の最先端の音声生成モデルを上回っています。研究コミュニティのために、モデル、学習コード、推論コード、および事前学習済みのチェックポイントを公開しています。

📣 我々は、多様なテキストと音声のペアのコレクションである TangoPromptBank で最初に事前学習され、その後AudioCapsで微調整された Tango - Full - FT - Audiocaps を公開しています。このチェックポイントは、AudioCapsにおけるテキストから音声への生成において最先端の結果を達成しています。

🚀 クイックスタート

モデルのダウンロードと音声生成

import IPython
import soundfile as sf
from tango import Tango

tango = Tango("declare-lab/tango")

prompt = "An audience cheering and clapping"
audio = tango.generate(prompt)
sf.write(f"{prompt}.wav", audio, samplerate=16000)
IPython.display.Audio(data=audio, rate=16000)

An audience cheering and clapping.webm

モデルは自動的にダウンロードされ、キャッシュに保存されます。その後の実行では、キャッシュから直接モデルが読み込まれます。

generate 関数は、デフォルトで100ステップを使用して潜在拡散モデルからサンプリングします。より高品質な音声を生成するには、200ステップを使用することをおすすめします。ただし、実行時間が増えるというコストがあります。

prompt = "Rolling thunder with lightning strikes"
audio = tango.generate(prompt, steps=200)
IPython.display.Audio(data=audio, rate=16000)

Rolling thunder with lightning strikes.webm

バッチでの音声生成

prompts = [
    "A car engine revving",
    "A dog barks and rustles with some clicking",
    "Water flowing and trickling"
]
audios = tango.generate_for_batch(prompts, samples=2)

これにより、3つのテキストプロンプトそれぞれについて2つのサンプルが生成されます。

✨ 主な機能

多様な音声生成：人の声、動物の鳴き声、自然音や人工音、効果音など、様々な音声をテキストプロンプトから生成できます。
最先端の性能：客観的および主観的な指標の両方で、現在の最先端の音声生成モデルを上回っています。

📦 インストール

コードはこちらで公開されています: https://github.com/declare-lab/tango

いくつかの TANGO 生成サンプルをこちらにアップロードしています: https://tango-web.github.io/

インストール、使用方法、実験に関する指示は、リポジトリ内の説明に従ってください。

🔧 技術詳細

テキストエンコーダ：凍結されたインストラクションチューニング済みの大規模言語モデルであるFlan - T5を使用しています。
音声生成モデル：UNetベースの拡散モデルを学習させて音声を生成します。

📄 ライセンス

このプロジェクトは、CC - BY - NC - SA 4.0ライセンスの下で公開されています。

💡 注意事項

⚠️ 重要提示

TANGOは小規模なAudioCapsデータセットで学習されているため、学習時に見ていない概念に関連する良質な音声サンプルを生成できない場合があります（例：singing）。同じ理由で、TANGOはテキスト制御プロンプトに対して生成を細かく制御できないことがあります。例えば、Chopping tomatoes on a wooden table と Chopping potatoes on a metal table のプロンプトからの生成結果は非常に似ています。Chopping vegetables on a table も同様の音声サンプルを生成します。したがって、モデルがテキスト概念の構成と様々なテキスト - 音声マッピングを学習するためには、より大規模なデータセットでテキストから音声への生成モデルを学習させる必要があります。