tango - fullオープンソースのテキスト音声変換モデル - 本物に迫る人声や効果音などの音声を無料で生成

ホーム

Tango Full

declare-labによって開発

TANGOは潜在拡散モデルに基づくテキスト音声生成ツールで、テキストプロンプトに応じて人間の声、動物の鳴き声、自然音や人工音を含むリアルな音声を生成できます。

音声生成

Transformers

英語#指示音声生成 #拡散モデル音声合成 #多シーン効果音生成

ダウンロード数 15

リリース時間 : 5/30/2023

モデル概要

TANGOは凍結パラメータの指示チューニング大規模言語モデルFlan-T5をテキストエンコーダとして採用し、UNetアーキテクチャに基づく拡散モデルを訓練して音声生成を行います。客観的指標と主観的評価の両方で、本モデルは現在最先端の音声生成モデルを凌駕しています。

モデル特徴

高品質音声生成

人間の声、動物の鳴き声、自然音や人工音を含むリアルな音声を生成可能

指示誘導拡散

指示チューニング大規模言語モデルFlan-T5をテキストエンコーダとして採用し、正確なテキスト音声変換を実現

SOTA性能超越

客観的指標と主観的評価の両方で現在最先端の音声生成モデルを上回る

モデル能力

テキストから音声生成

多カテゴリ音声合成

高品質音声レンダリング

使用事例

エンターテインメント＆メディア

効果音制作

映画、ゲームなどのコンテンツ向けに高品質な効果音を迅速生成

リアルな環境音や特殊効果音を生成

教育

教育補助

教育コンテンツ向けの付随音声を生成

生き生きとした教材音声素材を作成

🚀 TANGO: 指示付き拡散を用いたテキストから音声への変換

TANGO は、テキストから音声を生成する潜在拡散モデルです。 TANGO は、テキストプロンプトから、人の声、動物の鳴き声、自然音や人工音、そして音響効果を含むリアルな音声を生成することができます。テキストエンコーダとして凍結された指示調整済みの大規模言語モデル Flan - T5 を使用し、音声生成用の UNet ベースの拡散モデルを学習させています。客観的および主観的な指標の両方で、現在の最先端の音声生成モデルを上回っています。研究コミュニティ向けに、モデル、学習コード、推論コード、および事前学習済みのチェックポイントを公開しています。

📣 最近、Tango 2 をリリースしました。こちらからアクセスできます。

📣 TangoPromptBank で事前学習された Tango - Full をリリースしています。

🚀 クイックスタート

TANGO モデルをダウンロードし、テキストプロンプトから音声を生成します。

import IPython
import soundfile as sf
from tango import Tango

tango = Tango("declare-lab/tango-full-ft-audiocaps")

prompt = "An audience cheering and clapping"
audio = tango.generate(prompt)
sf.write(f"{prompt}.wav", audio, samplerate=16000)
IPython.display.Audio(data=audio, rate=16000)

An audience cheering and clapping.webm

モデルは自動的にダウンロードされ、キャッシュに保存されます。以降の実行では、キャッシュから直接モデルが読み込まれます。

generate 関数は、デフォルトで 100 ステップを使用して潜在拡散モデルからサンプリングします。より高品質な音声を生成するには、200 ステップを使用することをおすすめします。ただし、これは実行時間の増加を伴います。

prompt = "Rolling thunder with lightning strikes"
audio = tango.generate(prompt, steps=200)
IPython.display.Audio(data=audio, rate=16000)

Rolling thunder with lightning strikes.webm

テキストプロンプトのバッチに対して複数の音声サンプルを生成するには、generate_for_batch 関数を使用します。

prompts = [
    "A car engine revving",
    "A dog barks and rustles with some clicking",
    "Water flowing and trickling"
]
audios = tango.generate_for_batch(prompts, samples=2)

これにより、3 つのテキストプロンプトのそれぞれに対して 2 つのサンプルが生成されます。