🚀 EnCodec模型卡片
EnCodec 32kHz是Meta AI開發的一款先進的即時音頻編解碼器。本模型卡片將為你詳細介紹該模型,此EnCodec檢查點是作為MusicGen項目的一部分專門訓練的,旨在與MusicGen模型配合使用。

📚 詳細文檔
模型描述
EnCodec是一種利用神經網絡的高保真音頻編解碼器。它引入了一種具有量化潛在空間的流式編碼器 - 解碼器架構,並以端到端的方式進行訓練。該模型使用單一的多尺度頻譜圖對抗器簡化並加速了訓練過程,能有效減少偽影並生成高質量樣本。此外,它還包含一種新穎的損失平衡機制,通過將超參數的選擇與典型的損失規模解耦來穩定訓練。同時,使用輕量級Transformer模型在保持即時性能的同時進一步壓縮所獲得的表示。此版本的EnCodec在20k音樂數據上進行訓練,這些數據包括一個包含10K高質量音樂曲目的內部數據集,以及ShutterStock和Pond5音樂數據集。
屬性 |
詳情 |
開發者 |
Meta AI |
模型類型 |
音頻編解碼器 |
模型來源
✨ 主要特性
直接使用
EnCodec可直接用作音頻編解碼器,用於音頻信號的即時壓縮和解壓縮。它能提供高質量的音頻壓縮和高效的解碼。該模型在多種帶寬上進行了訓練,這些帶寬可以在編碼(壓縮)和解碼(解壓縮)時指定。EnCodec有兩種不同的設置:
- 非流式:將輸入音頻分割成1秒的塊,重疊10毫秒,然後進行編碼。
- 流式:在卷積層上使用權重歸一化,輸入音頻不分割成塊,而是在左側進行填充。
下游使用
此版本的EnCodec旨在與官方的MusicGen檢查點配合使用。不過,它也可以獨立用於編碼音頻文件。
📦 安裝指南
使用以下代碼,結合LibriSpeech數據集中的一個示例(約9MB),開始使用EnCodec模型。首先,安裝所需的Python包:
pip install --upgrade pip
pip install --upgrade transformers datasets[audio]
💻 使用示例
基礎用法
from datasets import load_dataset, Audio
from transformers import EncodecModel, AutoProcessor
librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
model = EncodecModel.from_pretrained("facebook/encodec_48khz")
processor = AutoProcessor.from_pretrained("facebook/encodec_48khz")
librispeech_dummy = librispeech_dummy.cast_column("audio", Audio(sampling_rate=processor.sampling_rate))
audio_sample = librispeech_dummy[0]["audio"]["array"]
inputs = processor(raw_audio=audio_sample, sampling_rate=processor.sampling_rate, return_tensors="pt")
encoder_outputs = model.encode(inputs["input_values"], inputs["padding_mask"])
audio_values = model.decode(encoder_outputs.audio_codes, encoder_outputs.audio_scales, inputs["padding_mask"])[0]
audio_values = model(inputs["input_values"], inputs["padding_mask"]).audio_values
🔍 評估
評估結果請參考MusicGen評估分數。
🔧 技術細節
EnCodec是一款先進的即時神經音頻壓縮模型,能夠在各種採樣率和帶寬下出色地生成高保真音頻樣本。該模型的性能在不同設置下進行了評估,範圍從1.5 kbps的24kHz單聲道到48kHz立體聲,展示了主觀和客觀的結果。值得注意的是,EnCodec採用了一種新穎的僅頻譜圖對抗損失,有效減少了偽影並提高了樣本質量。通過引入用於損失權重的梯度平衡器,進一步提高了訓練的穩定性和可解釋性。此外,研究表明,在不影響質量的情況下,特別是在對低延遲要求不高的應用(如音樂流)中,可以使用緊湊的Transformer模型將帶寬再降低40%。
📄 許可證
引用信息
BibTeX:
@misc{copet2023simple,
title={Simple and Controllable Music Generation},
author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
year={2023},
eprint={2306.05284},
archivePrefix={arXiv},
primaryClass={cs.SD}
}