tango2-full開源文本轉音頻模型 - 免費部署實現高質量語音內容生成

首頁

Tango2 Full

由declare-lab開發

Tango 2是基於Tango改進的文本轉音頻生成模型，通過直接偏好優化(DPO)技術實現音頻生成的對齊訓練

音頻生成

Transformers

英語#文本轉音頻生成 #擴散模型優化 #偏好對齊訓練

下載量 63

發布時間 : 4/13/2024

模型概述

Tango 2是一個擴散式文本轉音頻生成模型，在Tango-full-ft檢查點基礎上，使用Audio-alpaca配對的文本-音頻偏好數據集進行DPO對齊訓練，能夠根據文本描述生成高質量的音頻

模型特點

直接偏好優化(DPO)

使用DPO技術對模型進行對齊訓練，提高生成音頻的質量和與文本描述的匹配度

擴展訓練數據集

在擴展版Audio-alpaca數據集上進行訓練，增強模型的泛化能力

高質量音頻生成

支持100-200步採樣，可生成高質量的音頻效果

模型能力

文本到音頻轉換

批量音頻生成

場景音效合成

使用案例

多媒體制作

音效生成

根據文本描述自動生成特定場景的音效

可生成如雷聲、歡呼聲等高質量音效

背景音樂合成

根據場景描述生成匹配的背景音樂

遊戲開發

遊戲音效製作

快速生成各種遊戲場景所需的音效

🚀 Tango 2：通過直接偏好優化對齊基於擴散的文本到音頻生成模型

🎵 我們在 Tango 的基礎上開發了 Tango 2，用於文本到音頻的生成。Tango 2 以 Tango-full-ft 檢查點進行初始化，並在音頻配對偏好數據集 audio-alpaca 上使用直接偏好優化（DPO）進行對齊訓練。Tango-2-full 是在 Audio-alpaca 的擴展版本上進行訓練的 🎶

閱讀論文

🚀 快速開始

下載 Tango 2 模型，並根據文本提示生成音頻：

import IPython
import soundfile as sf
from tango import Tango

tango = Tango("declare-lab/tango2-full")

prompt = "An audience cheering and clapping"
audio = tango.generate(prompt)
sf.write(f"{prompt}.wav", audio, samplerate=16000)
IPython.display.Audio(data=audio, rate=16000)

模型將自動下載並保存到緩存中。後續運行時將直接從緩存中加載模型。

generate 函數默認使用 100 步從潛在擴散模型中採樣。我們建議使用 200 步來生成更高質量的音頻，但這會增加運行時間。

prompt = "Rolling thunder with lightning strikes"
audio = tango.generate(prompt, steps=200)
IPython.display.Audio(data=audio, rate=16000)

使用 generate_for_batch 函數為一批文本提示生成多個音頻樣本：

prompts = [
    "A car engine revving",
    "A dog barks and rustles with some clicking",
    "Water flowing and trickling"
]
audios = tango.generate_for_batch(prompts, samples=2)

這將為三個文本提示中的每個提示生成兩個樣本。

💻 使用示例

基礎用法

import IPython
import soundfile as sf
from tango import Tango

tango = Tango("declare-lab/tango2-full")

prompt = "An audience cheering and clapping"
audio = tango.generate(prompt)
sf.write(f"{prompt}.wav", audio, samplerate=16000)
IPython.display.Audio(data=audio, rate=16000)

高級用法

# 為了生成更高質量的音頻，使用 200 步採樣，不過這會增加運行時間
prompt = "Rolling thunder with lightning strikes"
audio = tango.generate(prompt, steps=200)
IPython.display.Audio(data=audio, rate=16000)

# 為一批文本提示生成多個音頻樣本
prompts = [
    "A car engine revving",
    "A dog barks and rustles with some clicking",
    "Water flowing and trickling"
]
audios = tango.generate_for_batch(prompts, samples=2)

📚 詳細文檔

代碼

我們的代碼發佈在此處：https://github.com/declare-lab/tango

請按照倉庫中的說明進行安裝、使用和實驗。

📄 許可證

本項目採用知識共享署名 - 非商業性使用 - 相同方式共享 4.0 國際許可協議（CC BY-NC-SA 4.0）。

📦 信息表格

屬性	詳情
模型類型	基於擴散的文本到音頻生成模型
訓練數據	bjoernp/AudioCaps、declare-lab/audio-alpaca
任務類型	文本到音頻
標籤	文本到音頻