Bark開源文本轉音頻模型 - 免費生成多語言語音、音樂及音效

首頁

Bark

由suno開發

Bark是由Suno創建的基於Transformer的文本轉音頻模型，能生成高度逼真的多語言語音、音樂、背景噪音和簡單音效。

語音合成

Transformers

支持多種語言開源協議:MIT #多語言語音合成 #情感音效生成 #高保真音頻

下載量 35.72k

發布時間 : 4/25/2023

模型概述

Bark是一個先進的文本轉語音模型，能夠生成多語言語音、非語言交流（如笑聲、嘆息）以及音樂和音效。

模型特點

多語言支持

支持13種語言的語音生成，包括主要歐洲和亞洲語言。

非語言交流

能生成笑聲、嘆息、哭泣等非語言聲音，增強語音表現力。

多功能音頻生成

不僅能生成語音，還能產生音樂、背景噪音和簡單音效。

高真實度

生成的語音具有高度逼真的音質和自然度。

模型能力

文本轉語音

多語言語音合成

非語言聲音生成

音樂生成

音效生成

使用案例

輔助工具

語音輔助應用

為視障用戶或有閱讀困難的人群提供語音輸出功能。

高度自然的語音輸出

內容創作

播客和有聲讀物製作

快速生成不同語言的旁白和背景音效。

節省錄音時間和成本

遊戲開發

遊戲角色語音

為遊戲角色生成多樣化的語音和音效。

增強遊戲沉浸感

🚀 Bark

Bark 是由 Suno 開發的基於 Transformer 的文本轉音頻模型。Bark 能夠生成高度逼真的多語言語音以及其他音頻，包括音樂、背景噪音和簡單的音效。該模型還能產生如大笑、嘆息和哭泣等非語言交流聲音。為了支持研究社區，我們提供了可用於推理的預訓練模型檢查點。

原始的 GitHub 倉庫和模型卡片可在此處找到。

此模型僅用於研究目的。模型輸出未經過審查，作者不認可生成內容中的觀點。使用時請自行承擔風險。

已發佈兩個檢查點：

🚀 快速開始

你可以通過以下方式體驗 Bark 的魅力：

Bark Colab：
Hugging Face Colab：
Hugging Face 演示：

📦 安裝指南

使用 🤗 Transformers 庫

你可以使用 🤗 Transformers 庫（版本 4.31.0 及以上）在本地運行 Bark。

首先安裝 🤗 Transformers 庫和 scipy：

pip install --upgrade pip
pip install --upgrade transformers scipy

使用原始 Bark 庫

你也可以通過原始的 Bark 庫在本地運行 Bark：

首先安裝 bark 庫

💻 使用示例

使用 🤗 Transformers 庫

基礎用法

通過 Text-to-Speech (TTS) 管道運行推理。你可以通過幾行代碼使用 TTS 管道推理 Bark 模型！

from transformers import pipeline
import scipy

synthesiser = pipeline("text-to-speech", "suno/bark")

speech = synthesiser("Hello, my dog is cooler than you!", forward_params={"do_sample": True})

scipy.io.wavfile.write("bark_out.wav", rate=speech["sampling_rate"], data=speech["audio"])

高級用法

通過 Transformers 建模代碼運行推理。你可以使用處理器 + 生成代碼將文本轉換為單聲道 24 kHz 語音波形，以實現更精細的控制。

from transformers import AutoProcessor, AutoModel

processor = AutoProcessor.from_pretrained("suno/bark")
model = AutoModel.from_pretrained("suno/bark")

inputs = processor(
    text=["Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe."],
    return_tensors="pt",
)

speech_values = model.generate(**inputs, do_sample=True)

播放或保存語音樣本

在 ipynb 筆記本中收聽語音樣本：

from IPython.display import Audio

sampling_rate = model.generation_config.sample_rate
Audio(speech_values.cpu().numpy().squeeze(), rate=sampling_rate)

或者使用第三方庫（如 scipy）將它們保存為 .wav 文件：

import scipy

sampling_rate = model.config.sample_rate
scipy.io.wavfile.write("bark_out.wav", rate=sampling_rate, data=speech_values.cpu().numpy().squeeze())

有關使用 🤗 Transformers 庫使用 Bark 模型進行推理的更多詳細信息，請參閱 Bark 文檔。

使用原始 Bark 庫

from bark import SAMPLE_RATE, generate_audio, preload_models
from IPython.display import Audio

# download and load all models
preload_models()

# generate audio from text
text_prompt = """
     Hello, my name is Suno. And, uh — and I like pizza. [laughs] 
     But I also have other interests such as playing tic tac toe.
"""
speech_array = generate_audio(text_prompt)

# play text in notebook
Audio(speech_array, rate=SAMPLE_RATE)

將 audio_array 保存為 WAV 文件：

from scipy.io.wavfile import write as write_wav

write_wav("/path/to/audio.wav", SAMPLE_RATE, audio_array)

🔧 技術細節

模型概述

Bark 是一系列將文本轉換為音頻的三個 Transformer 模型。

文本到語義標記

輸入：使用 Hugging Face 的 BERT 分詞器進行分詞的文本
輸出：對要生成的音頻進行編碼的語義標記

語義到粗略標記

輸入：語義標記
輸出：來自 Facebook 的 EnCodec 編解碼器的前兩個碼本的標記

粗略到精細標記

輸入：EnCodec 的前兩個碼本
輸出：EnCodec 的 8 個碼本

架構

模型	參數	注意力機制	輸出詞彙表大小
文本到語義標記	80/300 M	因果	10,000
語義到粗略標記	80/300 M	因果	2 x 1,024
粗略到精細標記	80/300 M	非因果	6 x 1,024

發佈日期

2023 年 4 月

📚 詳細文檔

我們預計該模型的文本轉音頻功能可用於改進多種語言的無障礙工具。

雖然我們希望此次發佈能讓用戶發揮創造力並構建有益的應用程序，但我們也認識到任何文本轉音頻模型都有雙重用途的可能性。雖然使用 Bark 對已知人物進行語音克隆並不容易，但它仍可能被用於惡意目的。為了進一步降低 Bark 被意外使用的可能性，我們還發布了一個簡單的分類器，可高精度檢測 Bark 生成的音頻（請參閱主倉庫的筆記本部分）。