Tango 2オープンソーステキスト音声合成モデル - 無料でデプロイして高品質な音声を生成する

ホーム

Tango2

declare-labによって開発

Tango 2はTangoを改良したテキストからオーディオを生成するモデルで、DPOアライメントトレーニングによりオーディオ生成品質を最適化

音声生成

Transformers

英語#テキストからオーディオへの拡散モデル #DPOアライメント最適化 #多様なシナリオ向けサウンド生成

ダウンロード数 147

リリース時間 : 4/13/2024

モデル概要

Tango 2は拡散型テキスト-オーディオ生成モデルで、直接選好最適化(DPO)技術を用いて人間のオーディオ選好にアライメントし、テキストプロンプトに基づいて高品質なオーディオコンテンツを生成可能

モデル特徴

DPOアライメントトレーニング

audio-alpacaデータセットを使用した直接選好最適化により、オーディオ生成品質を向上

高品質オーディオ生成

100-200ステップのサンプリングをサポートし、より自然でリアルなオーディオを生成

バッチ生成機能

複数のテキストプロンプトに対して同時に複数のオーディオサンプルを生成可能

モデル能力

テキストからオーディオ変換

高品質オーディオ生成

バッチオーディオ生成

使用事例

サウンドエフェクト制作

環境音生成

テキスト記述に基づく自然環境音の生成

リアルな水流、風音などの環境音を生成

イベント音生成

拍手、歓声など特定イベントの音響効果生成

シーン記述に合致した生き生きとした音響効果を生成

メディア制作

映像音楽生成

シーン記述に基づくバックグラウンドミュージック生成

シーンの雰囲気にマッチした音楽フレーズを生成

🚀 Tango 2: 直接嗜好最適化による拡散ベースのテキストから音声への生成モデルのアライメント

🎵 我々は、テキストから音声を生成するために、Tango をベースに Tango 2 を開発しました。Tango 2 は、Tango-full-ft チェックポイントで初期化され、ペアワイズのテキストから音声への嗜好データセットである audio-alpaca 上で DPO を使用してアライメントトレーニングを行いました。🎶

論文を読む

🚀 クイックスタート

モデルのダウンロードと音声生成

Tango 2 モデルをダウンロードし、テキストプロンプトから音声を生成するには、以下のコードを実行します。

import IPython
import soundfile as sf
from tango import Tango

tango = Tango("declare-lab/tango2")

prompt = "An audience cheering and clapping"
audio = tango.generate(prompt)
sf.write(f"{prompt}.wav", audio, samplerate=16000)
IPython.display.Audio(data=audio, rate=16000)

モデルは自動的にダウンロードされ、キャッシュに保存されます。以降の実行では、キャッシュから直接モデルが読み込まれます。

生成ステップ数の調整

generate 関数はデフォルトで100ステップを使用して潜在拡散モデルからサンプリングします。より高品質な音声を生成するには、200ステップを使用することをおすすめします。ただし、実行時間が増えることに注意してください。

prompt = "Rolling thunder with lightning strikes"
audio = tango.generate(prompt, steps=200)
IPython.display.Audio(data=audio, rate=16000)

バッチでの音声生成

generate_for_batch 関数を使用すると、バッチのテキストプロンプトに対して複数の音声サンプルを生成できます。

prompts = [
    "A car engine revving",
    "A dog barks and rustles with some clicking",
    "Water flowing and trickling"
]
audios = tango.generate_for_batch(prompts, samples=2)

これにより、3つのテキストプロンプトそれぞれに対して2つのサンプルが生成されます。