Tango 2開源文本生成音頻模型 - 免費部署生成高質量音頻

首頁

Tango2

由declare-lab開發

Tango 2是基於Tango改進的文本生成音頻模型，通過DPO對齊訓練優化音頻生成質量

音頻生成

Transformers

英語#文本轉音頻擴散模型 #DPO對齊優化 #多場景音效生成

下載量 147

發布時間 : 4/13/2024

模型概述

Tango 2是一個擴散式文本-音頻生成模型，通過直接偏好優化(DPO)技術對齊人類音頻偏好，能夠根據文本提示生成高質量的音頻內容

模型特點

DPO對齊訓練

使用audio-alpaca數據集進行直接偏好優化，提升音頻生成質量

高質量音頻生成

支持100-200步採樣，生成更自然、真實的音頻

批量生成能力

可同時為多條文本提示生成多個音頻樣本

模型能力

文本到音頻轉換

高質量音頻生成

批量音頻生成

使用案例

音效製作

環境音效生成

根據文本描述生成自然環境音效

生成逼真的水流、風聲等環境音效

事件音效生成

生成特定事件的音效如掌聲、歡呼等

生成符合場景描述的生動音效

媒體制作

影視配樂生成

根據場景描述生成背景音樂

生成與場景氛圍匹配的音樂片段

🚀 Tango 2：通過直接偏好優化對齊基於擴散的文本到音頻生成模型

🎵 我們在 Tango 的基礎上開發了 Tango 2，用於文本到音頻的生成。Tango 2 以 Tango-full-ft 檢查點進行初始化，並在音頻偏好數據集 audio-alpaca 上使用直接偏好優化（DPO）進行對齊訓練。🎶

閱讀論文

🚀 快速開始

下載 Tango 2 模型，並根據文本提示生成音頻：

import IPython
import soundfile as sf
from tango import Tango

tango = Tango("declare-lab/tango2")

prompt = "An audience cheering and clapping"
audio = tango.generate(prompt)
sf.write(f"{prompt}.wav", audio, samplerate=16000)
IPython.display.Audio(data=audio, rate=16000)

模型將自動下載並保存到緩存中。後續運行將直接從緩存中加載模型。

generate 函數默認使用 100 步從潛在擴散模型中採樣。我們建議使用 200 步來生成更高質量的音頻，但這會增加運行時間。

prompt = "Rolling thunder with lightning strikes"
audio = tango.generate(prompt, steps=200)
IPython.display.Audio(data=audio, rate=16000)

使用 generate_for_batch 函數為一批文本提示生成多個音頻樣本：

prompts = [
    "A car engine revving",
    "A dog barks and rustles with some clicking",
    "Water flowing and trickling"
]
audios = tango.generate_for_batch(prompts, samples=2)

這將為三個文本提示中的每個提示生成兩個樣本。

💻 使用示例

基礎用法

import IPython
import soundfile as sf
from tango import Tango

tango = Tango("declare-lab/tango2")

prompt = "An audience cheering and clapping"
audio = tango.generate(prompt)
sf.write(f"{prompt}.wav", audio, samplerate=16000)
IPython.display.Audio(data=audio, rate=16000)

高級用法

# 使用 200 步生成更高質量音頻
prompt = "Rolling thunder with lightning strikes"
audio = tango.generate(prompt, steps=200)
IPython.display.Audio(data=audio, rate=16000)

# 為一批文本提示生成多個音頻樣本
prompts = [
    "A car engine revving",
    "A dog barks and rustles with some clicking",
    "Water flowing and trickling"
]
audios = tango.generate_for_batch(prompts, samples=2)