encodec_32khzオープンソースオーディオコーデック - 高品質なリアルタイムエンコーディング、音楽創作を助ける

ホーム

Encodec 32khz

facebookによって開発

Meta AIが開発した高忠実度リアルタイムニューラル音声コーデックで、MusicGenプロジェクト向けにトレーニング

音声生成

Transformers

#リアルタイム音声圧縮 #高忠実度コーデック #音楽生成専用

ダウンロード数 348.00k

リリース時間 : 6/15/2023

モデル概要

EnCodecはニューラルネットワークを利用したリアルタイム音声コーデックで、高品質な音声圧縮と効率的なデコードをサポートし、MusicGenモデルと連携可能

モデル特徴

高忠実度音声圧縮

エンドツーエンドのトレーニング方式を採用し、高品質な音声サンプルを生成、アーティファクトを効果的に低減

リアルタイム処理能力

ストリーミングと非ストリーミングの2つの動作モードをサポートし、様々なシナリオに対応

革新的なトレーニングメカニズム

マルチスケールスペクトル敵対器と損失バランス機構により、安定かつ効率的なトレーニングを実現

バンド幅調整可能

エンコードとデコード時に異なるバンド幅を指定可能で、多様なアプリケーションシーンに適応

モデル能力

音声圧縮

音声解凍

リアルタイム音声処理

高品質音声生成

使用事例

音楽生成

MusicGenとの連携使用

MusicGenモデルの音声コーデックコンポーネントとして

高品質な音楽生成と圧縮を実現

音声処理

独立音声コーデック

単独で音声ファイルの圧縮と解凍に使用

高忠実度な音声圧縮効果を提供

🚀 EnCodec モデルカード

Meta AIによって開発された最先端のリアルタイムオーディオコーデックであるEnCodec 32kHzに関する詳細情報を提供します。このEnCodecチェックポイントは、MusicGenプロジェクトの一部として特別にトレーニングされており、MusicGenモデルと組み合わせて使用することを想定しています。

encodec image

🚀 クイックスタート

下記のコードを使用して、LibriSpeechデータセットのダミーサンプル（約9MB）を用いてEnCodecモデルを始めることができます。まず、必要なPythonパッケージをインストールします。

pip install --upgrade pip
pip install --upgrade transformers datasets[audio]

次に、オーディオサンプルをロードし、モデルの順伝播を実行します。

from datasets import load_dataset, Audio
from transformers import EncodecModel, AutoProcessor

# デモンストレーション用のデータセットをロード
librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")

# モデルとプロセッサー（オーディオの前処理用）をロード
model = EncodecModel.from_pretrained("facebook/encodec_48khz")
processor = AutoProcessor.from_pretrained("facebook/encodec_48khz")

# オーディオデータをモデルに適したサンプリングレートに変換
librispeech_dummy = librispeech_dummy.cast_column("audio", Audio(sampling_rate=processor.sampling_rate))
audio_sample = librispeech_dummy[0]["audio"]["array"]

# 入力を前処理
inputs = processor(raw_audio=audio_sample, sampling_rate=processor.sampling_rate, return_tensors="pt")

# 明示的にオーディオ入力をエンコードしてからデコード
encoder_outputs = model.encode(inputs["input_values"], inputs["padding_mask"])
audio_values = model.decode(encoder_outputs.audio_codes, encoder_outputs.audio_scales, inputs["padding_mask"])[0]

# または、順伝播で同等のことができます
audio_values = model(inputs["input_values"], inputs["padding_mask"]).audio_values

✨ 主な機能

モデル概要

EnCodecは、ニューラルネットワークを活用した高忠実度のオーディオコーデックです。量子化された潜在空間を持つストリーミングエンコーダー・デコーダーアーキテクチャを導入し、エンドツーエンドでトレーニングされています。このモデルは、単一のマルチスケールスペクトログラム敵対者を使用してトレーニングを簡素化し高速化し、アーティファクトを効率的に削減し、高品質なサンプルを生成します。また、損失の典型的なスケールからハイパーパラメータの選択を切り離すことでトレーニングを安定させる新しい損失バランサーメカニズムも含まれています。さらに、軽量なTransformerモデルを使用して、リアルタイム性能を維持しながら得られた表現をさらに圧縮します。このEnCodecのバリアントは、10Kの高品質な音楽トラックの内部データセットと、ShutterStockおよびPond5の音楽データセットから構成される20kの音楽データでトレーニングされています。

開発元: Meta AI
モデルタイプ: オーディオコーデック

モデルソース

リポジトリ: GitHubリポジトリ
論文: Simple and Controllable Music Generation

📦 インストール

pip install --upgrade pip
pip install --upgrade transformers datasets[audio]

💻 使用例

基本的な使用法

from datasets import load_dataset, Audio
from transformers import EncodecModel, AutoProcessor

# デモンストレーション用のデータセットをロード
librispeech_dummy = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")

# モデルとプロセッサー（オーディオの前処理用）をロード
model = EncodecModel.from_pretrained("facebook/encodec_48khz")
processor = AutoProcessor.from_pretrained("facebook/encodec_48khz")

# オーディオデータをモデルに適したサンプリングレートに変換
librispeech_dummy = librispeech_dummy.cast_column("audio", Audio(sampling_rate=processor.sampling_rate))
audio_sample = librispeech_dummy[0]["audio"]["array"]

# 入力を前処理
inputs = processor(raw_audio=audio_sample, sampling_rate=processor.sampling_rate, return_tensors="pt")

# 明示的にオーディオ入力をエンコードしてからデコード
encoder_outputs = model.encode(inputs["input_values"], inputs["padding_mask"])
audio_values = model.decode(encoder_outputs.audio_codes, encoder_outputs.audio_scales, inputs["padding_mask"])[0]

# または、順伝播で同等のことができます
audio_values = model(inputs["input_values"], inputs["padding_mask"]).audio_values

📚 ドキュメント

直接利用

EnCodecは、オーディオ信号のリアルタイム圧縮と伸張のためのオーディオコーデックとして直接使用できます。高品質なオーディオ圧縮と効率的なデコードを提供します。このモデルは、様々なバンド幅でトレーニングされており、エンコード（圧縮）およびデコード（伸張）時に指定できます。EnCodecには2つの異なる設定があります。

非ストリーマブル: 入力オーディオは1秒のチャンクに分割され、10msのオーバーラップがあり、それらがエンコードされます。
ストリーマブル: 畳み込み層に重み正規化が使用され、入力はチャンクに分割されず、左側にパディングされます。

下流利用

このEnCodecのバリアントは、公式のMusicGenチェックポイントと組み合わせて使用するように設計されています。ただし、オーディオファイルをエンコードするために単独で使用することもできます。

評価

評価結果については、MusicGen評価スコアを参照してください。

概要

EnCodecは、様々なサンプルレートとバンド幅で高忠実度のオーディオサンプルを生成する最先端のリアルタイムニューラルオーディオ圧縮モデルです。このモデルの性能は、24kHzモノラルで1.5kbpsから48kHzステレオまでのさまざまな設定で評価され、主観的および客観的な結果を示しています。特に、EnCodecは新しいスペクトログラムのみの敵対的損失を組み込んでおり、アーティファクトを効果的に削減し、サンプル品質を向上させています。トレーニングの安定性と解釈可能性は、損失重みの勾配バランサーの導入によってさらに向上しました。さらに、研究では、低遅延が重要でないアプリケーション（例：音楽ストリーミング）では、コンパクトなTransformerモデルを使用して、品質を損なうことなく最大40％の追加のバンド幅削減を達成できることが示されています。

📄 ライセンス

引用

BibTeX:

@misc{copet2023simple,
      title={Simple and Controllable Music Generation}, 
      author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
      year={2023},
      eprint={2306.05284},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}