🚀 EnCodec模型卡片
EnCodec 32kHz是Meta AI开发的一款先进的实时音频编解码器。本模型卡片将为你详细介绍该模型,此EnCodec检查点是作为MusicGen项目的一部分专门训练的,旨在与MusicGen模型配合使用。

📚 详细文档
模型描述
EnCodec是一种利用神经网络的高保真音频编解码器。它引入了一种具有量化潜在空间的流式编码器 - 解码器架构,并以端到端的方式进行训练。该模型使用单一的多尺度频谱图对抗器简化并加速了训练过程,能有效减少伪影并生成高质量样本。此外,它还包含一种新颖的损失平衡机制,通过将超参数的选择与典型的损失规模解耦来稳定训练。同时,使用轻量级Transformer模型在保持实时性能的同时进一步压缩所获得的表示。此版本的EnCodec在20k音乐数据上进行训练,这些数据包括一个包含10K高质量音乐曲目的内部数据集,以及ShutterStock和Pond5音乐数据集。
属性 |
详情 |
开发者 |
Meta AI |
模型类型 |
音频编解码器 |
模型来源
✨ 主要特性
直接使用
EnCodec可直接用作音频编解码器,用于音频信号的实时压缩和解压缩。它能提供高质量的音频压缩和高效的解码。该模型在多种带宽上进行了训练,这些带宽可以在编码(压缩)和解码(解压缩)时指定。EnCodec有两种不同的设置:
- 非流式:将输入音频分割成1秒的块,重叠10毫秒,然后进行编码。
- 流式:在卷积层上使用权重归一化,输入音频不分割成块,而是在左侧进行填充。
下游使用
此版本的EnCodec旨在与官方的MusicGen检查点配合使用。不过,它也可以独立用于编码音频文件。
📦 安装指南
使用以下代码,结合LibriSpeech数据集中的一个示例(约9MB),开始使用EnCodec模型。首先,安装所需的Python包:
pip install --upgrade pip
pip install --upgrade transformers datasets[audio]
💻 使用示例
基础用法
from datasets import load_dataset, Audio
from transformers import EncodecModel, AutoProcessor
librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
model = EncodecModel.from_pretrained("facebook/encodec_48khz")
processor = AutoProcessor.from_pretrained("facebook/encodec_48khz")
librispeech_dummy = librispeech_dummy.cast_column("audio", Audio(sampling_rate=processor.sampling_rate))
audio_sample = librispeech_dummy[0]["audio"]["array"]
inputs = processor(raw_audio=audio_sample, sampling_rate=processor.sampling_rate, return_tensors="pt")
encoder_outputs = model.encode(inputs["input_values"], inputs["padding_mask"])
audio_values = model.decode(encoder_outputs.audio_codes, encoder_outputs.audio_scales, inputs["padding_mask"])[0]
audio_values = model(inputs["input_values"], inputs["padding_mask"]).audio_values
🔍 评估
评估结果请参考MusicGen评估分数。
🔧 技术细节
EnCodec是一款先进的实时神经音频压缩模型,能够在各种采样率和带宽下出色地生成高保真音频样本。该模型的性能在不同设置下进行了评估,范围从1.5 kbps的24kHz单声道到48kHz立体声,展示了主观和客观的结果。值得注意的是,EnCodec采用了一种新颖的仅频谱图对抗损失,有效减少了伪影并提高了样本质量。通过引入用于损失权重的梯度平衡器,进一步提高了训练的稳定性和可解释性。此外,研究表明,在不影响质量的情况下,特别是在对低延迟要求不高的应用(如音乐流)中,可以使用紧凑的Transformer模型将带宽再降低40%。
📄 许可证
引用信息
BibTeX:
@misc{copet2023simple,
title={Simple and Controllable Music Generation},
author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
year={2023},
eprint={2306.05284},
archivePrefix={arXiv},
primaryClass={cs.SD}
}