E

Encodec 48khz

由facebook開發
EnCodec是由Meta AI開發的即時高保真神經音頻編解碼器,支持多種帶寬配置和流式處理。
下載量 23.25k
發布時間 : 6/12/2023

模型概述

基於神經網絡的端到端音頻編解碼器,採用量化潛在空間和多尺度頻譜對抗器,支持即時音頻壓縮/解壓縮。

模型特點

多尺度頻譜對抗訓練
通過單一對抗器簡化訓練流程,有效減少偽影並提升生成質量
動態損失平衡
創新性解耦超參數與損失尺度,顯著提高訓練穩定性
流式處理支持
通過權重歸一化和左填充技術實現連續音頻流即時處理
帶寬可配置
支持1.5kbps至12kbps多種壓縮率,適應不同應用場景

模型能力

即時音頻壓縮
高保真音頻重建
流式音頻處理
多帶寬配置

使用案例

音頻通信
低帶寬語音傳輸
在有限網絡條件下實現高質量語音通話
3kbps版本性能優於Opus 12kbps
媒體服務
音樂流媒體
高效壓縮音樂內容同時保持高音質
結合語言模型可減少25-40%帶寬
生成式AI
語音合成
作為可微調組件用於TTS系統
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase