Bark-small開源文本轉音頻模型 - 免費部署生成多語言語音及音效

首頁

Bark Small

由ylacombe開發

Bark是由Suno創建的基於Transformer的文本轉音頻模型，能生成高度逼真的多語言語音、音樂、背景噪音和簡單音效。

語音合成

Transformers

支持多種語言#多語言語音合成 #情感音效生成 #高保真音頻

下載量 1,947

發布時間 : 6/16/2023

模型概述

Bark是一個文本轉音頻模型，可以生成多語言語音、音樂、背景噪音和簡單音效，還能產生非語言交流如笑聲、嘆息和哭泣。

模型特點

多語言支持

支持13種語言的文本轉語音，包括中文、英語、日語等。

多功能音頻生成

不僅能生成語音，還能生成音樂、背景噪音和簡單音效。

非語言交流

可以產生笑聲、嘆息和哭泣等非語言交流聲音。

高度逼真

生成的語音和音頻具有高度逼真的效果。

模型能力

文本轉語音

音樂生成

背景噪音生成

簡單音效生成

非語言交流生成

使用案例

輔助工具

多語言語音輔助

為不同語言的用戶提供語音輔助功能。

高度逼真的語音輸出

內容創作

音頻內容生成

為視頻、播客等內容生成背景音樂和音效。

多樣化的音頻輸出

🚀 Bark

Bark是由Suno創建的基於Transformer的文本轉音頻模型。Bark可以生成高度逼真的多語言語音以及其他音頻，包括音樂、背景噪音和簡單的音效。該模型還可以產生如大笑、嘆息和哭泣等非語言交流聲音。為了支持研究社區，我們提供了可用於推理的預訓練模型檢查點。

原始的GitHub倉庫和模型卡片可以在這裡找到。

此模型僅用於研究目的。模型輸出未經過審查，作者不認可生成內容中的觀點。使用風險自負。

已發佈兩個檢查點：

🚀 快速開始

你可以親自嘗試使用Bark！

Bark Colab：
Hugging Face Colab：
Hugging Face演示：

✨ 主要特性

能夠生成高度逼真的多語言語音。
可以生成包括音樂、背景噪音和簡單音效在內的其他音頻。
支持產生非語言交流聲音。

📦 安裝指南

使用🤗 Transformers庫

你可以使用版本4.31.0及以上的🤗 Transformers庫在本地運行Bark。

首先從主分支安裝🤗 Transformers庫：

pip install git+https://github.com/huggingface/transformers.git

使用Suno的Bark庫

你也可以通過原始的Bark庫在本地運行Bark：

首先安裝bark庫

💻 使用示例

使用🤗 Transformers庫

運行以下Python代碼生成語音樣本：

from transformers import AutoProcessor, AutoModel

processor = AutoProcessor.from_pretrained("suno/bark-small")
model = AutoModel.from_pretrained("suno/bark-small")

inputs = processor(
    text=["Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe."],
    return_tensors="pt",
)

speech_values = model.generate(**inputs, do_sample=True)

在ipynb筆記本中收聽語音樣本：

from IPython.display import Audio

sampling_rate = model.generation_config.sample_rate
Audio(speech_values.cpu().numpy().squeeze(), rate=sampling_rate)

或者使用第三方庫（如scipy）將其保存為.wav文件：

import scipy

sampling_rate = model.config.sample_rate
scipy.io.wavfile.write("bark_out.wav", rate=sampling_rate, data=speech_values.cpu().numpy().squeeze())

更多關於使用🤗 Transformers庫進行Bark模型推理的詳細信息，請參考Bark文檔。

使用Suno的Bark庫

運行以下Python代碼：

from bark import SAMPLE_RATE, generate_audio, preload_models
from IPython.display import Audio

# download and load all models
preload_models()

# generate audio from text
text_prompt = """
     Hello, my name is Suno. And, uh — and I like pizza. [laughs] 
     But I also have other interests such as playing tic tac toe.
"""
speech_array = generate_audio(text_prompt)

# play text in notebook
Audio(speech_array, rate=SAMPLE_RATE)

pizza.webm

將audio_array保存為WAV文件：

from scipy.io.wavfile import write as write_wav

write_wav("/path/to/audio.wav", SAMPLE_RATE, audio_array)

📚 詳細文檔

模型細節

以下是關於此處發佈的模型的額外信息。

Bark是一系列將文本轉換為音頻的三個Transformer模型。

文本到語義標記

輸入：使用Hugging Face的BERT分詞器進行分詞的文本
輸出：對要生成的音頻進行編碼的語義標記

語義標記到粗略標記

輸入：語義標記
輸出：來自Facebook的EnCodec編解碼器的前兩個碼本的標記

粗略標記到精細標記

輸入：EnCodec的前兩個碼本
輸出：EnCodec的8個碼本

架構

模型	參數	注意力機制	輸出詞彙表大小
文本到語義標記	80/300 M	因果	10,000
語義標記到粗略標記	80/300 M	因果	2x 1,024
粗略標記到精細標記	80/300 M	非因果	6x 1,024

發佈日期

2023年4月

更廣泛的影響

我們預計該模型的文本轉音頻能力可用於改進多種語言的無障礙工具。

雖然我們希望此次發佈能讓用戶發揮創造力並構建有益的應用程序，但我們也承認任何文本轉音頻模型都有雙重用途的可能性。雖然使用Bark對已知人物進行語音克隆並不容易，但它仍可能被用於惡意目的。為了進一步降低Bark被意外使用的可能性，我們還發布了一個簡單的分類器，可高精度檢測Bark生成的音頻（見主倉庫的筆記本部分）。