encodec_32khz開源音頻編解碼器 - 高保真即時編碼，為音樂創作助力

首頁

Encodec 32khz

由facebook開發

Meta AI開發的高保真即時神經音頻編解碼器，專為MusicGen項目訓練

音頻生成

Transformers

#即時音頻壓縮 #高保真編解碼 #音樂生成專用

下載量 348.00k

發布時間 : 6/15/2023

模型概述

EnCodec是一種利用神經網絡的即時音頻編解碼器，支持高質量音頻壓縮與高效解碼，可與MusicGen模型配合使用

模型特點

高保真音頻壓縮

採用端到端訓練方式，生成高質量音頻樣本，有效減少偽影

即時處理能力

支持流式和非流式兩種工作模式，滿足不同場景需求

創新訓練機制

通過多尺度頻譜對抗器和損失平衡機制實現穩定高效訓練

帶寬可調

支持在編碼和解碼時指定不同帶寬，適應多種應用場景

模型能力

音頻壓縮

音頻解壓縮

即時音頻處理

高質量音頻生成

使用案例

音樂生成

配合MusicGen使用

作為MusicGen模型的音頻編解碼組件

實現高質量音樂生成與壓縮

音頻處理

獨立音頻編解碼

單獨用於音頻文件的壓縮與解壓縮

提供高保真音頻壓縮效果

🚀 EnCodec模型卡片

EnCodec 32kHz是Meta AI開發的一款先進的即時音頻編解碼器。本模型卡片將為你詳細介紹該模型，此EnCodec檢查點是作為MusicGen項目的一部分專門訓練的，旨在與MusicGen模型配合使用。

encodec image

📚 詳細文檔

模型描述

EnCodec是一種利用神經網絡的高保真音頻編解碼器。它引入了一種具有量化潛在空間的流式編碼器 - 解碼器架構，並以端到端的方式進行訓練。該模型使用單一的多尺度頻譜圖對抗器簡化並加速了訓練過程，能有效減少偽影並生成高質量樣本。此外，它還包含一種新穎的損失平衡機制，通過將超參數的選擇與典型的損失規模解耦來穩定訓練。同時，使用輕量級Transformer模型在保持即時性能的同時進一步壓縮所獲得的表示。此版本的EnCodec在20k音樂數據上進行訓練，這些數據包括一個包含10K高質量音樂曲目的內部數據集，以及ShutterStock和Pond5音樂數據集。

屬性	詳情
開發者	Meta AI
模型類型	音頻編解碼器

模型來源

倉庫地址：GitHub倉庫
相關論文：Simple and Controllable Music Generation

✨ 主要特性

直接使用

EnCodec可直接用作音頻編解碼器，用於音頻信號的即時壓縮和解壓縮。它能提供高質量的音頻壓縮和高效的解碼。該模型在多種帶寬上進行了訓練，這些帶寬可以在編碼（壓縮）和解碼（解壓縮）時指定。EnCodec有兩種不同的設置：

非流式：將輸入音頻分割成1秒的塊，重疊10毫秒，然後進行編碼。
流式：在卷積層上使用權重歸一化，輸入音頻不分割成塊，而是在左側進行填充。

下游使用

此版本的EnCodec旨在與官方的MusicGen檢查點配合使用。不過，它也可以獨立用於編碼音頻文件。

📦 安裝指南

使用以下代碼，結合LibriSpeech數據集中的一個示例（約9MB），開始使用EnCodec模型。首先，安裝所需的Python包：

pip install --upgrade pip
pip install --upgrade transformers datasets[audio]

💻 使用示例

基礎用法

from datasets import load_dataset, Audio
from transformers import EncodecModel, AutoProcessor

# load a demonstration datasets
librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")

# load the model + processor (for pre-processing the audio)
model = EncodecModel.from_pretrained("facebook/encodec_48khz")
processor = AutoProcessor.from_pretrained("facebook/encodec_48khz")

# cast the audio data to the correct sampling rate for the model
librispeech_dummy = librispeech_dummy.cast_column("audio", Audio(sampling_rate=processor.sampling_rate))
audio_sample = librispeech_dummy[0]["audio"]["array"]

# pre-process the inputs
inputs = processor(raw_audio=audio_sample, sampling_rate=processor.sampling_rate, return_tensors="pt")

# explicitly encode then decode the audio inputs
encoder_outputs = model.encode(inputs["input_values"], inputs["padding_mask"])
audio_values = model.decode(encoder_outputs.audio_codes, encoder_outputs.audio_scales, inputs["padding_mask"])[0]

# or the equivalent with a forward pass
audio_values = model(inputs["input_values"], inputs["padding_mask"]).audio_values

🔍 評估

評估結果請參考MusicGen評估分數。

🔧 技術細節

EnCodec是一款先進的即時神經音頻壓縮模型，能夠在各種採樣率和帶寬下出色地生成高保真音頻樣本。該模型的性能在不同設置下進行了評估，範圍從1.5 kbps的24kHz單聲道到48kHz立體聲，展示了主觀和客觀的結果。值得注意的是，EnCodec採用了一種新穎的僅頻譜圖對抗損失，有效減少了偽影並提高了樣本質量。通過引入用於損失權重的梯度平衡器，進一步提高了訓練的穩定性和可解釋性。此外，研究表明，在不影響質量的情況下，特別是在對低延遲要求不高的應用（如音樂流）中，可以使用緊湊的Transformer模型將帶寬再降低40%。

📄 許可證

引用信息

BibTeX：

@misc{copet2023simple,
      title={Simple and Controllable Music Generation}, 
      author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
      year={2023},
      eprint={2306.05284},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}