stable-codec-speech-16k開源語音編解碼模型 - 高效壓縮與生成語音數據

首頁

Stable Codec Speech 16k

由stabilityai開發

基於Transformer架構的高質量低比特率語音編解碼模型，專為語音數據壓縮和生成建模設計

音頻生成

Safetensors

英語開源協議:其他 #低比特率語音編碼 #Transformer編解碼 #語音合成基礎

下載量 1,072

發布時間 : 1/10/2025

模型概述

該模型通過將音頻波形編碼為離散標記進行處理，可高效壓縮存儲語音信號並解碼還原原始音頻，為語音生成和理解應用提供基礎工具

模型特點

高質量低比特率編碼

專為語音數據優化的壓縮技術，在保持高質量的同時實現低比特率

生成建模友好

輸出格式特別適合作為語音生成類模型的輸入或訓練目標

商業友好許可

年收入低於100萬美元的組織可免費用於商業用途

模型能力

語音信號壓縮

音頻流傳輸優化

語音編碼研究

語音合成基礎工具

使用案例

通信增強

即時通訊平臺

優化語音通話的數據傳輸效率

降低帶寬需求同時保持語音質量

語音技術開發

文本轉語音系統

作為語音生成模型的預處理/後處理組件

對話式AI

支持語音交互系統的開發

🚀 stable-codec-speech-16k模型卡片

stable-codec-speech-16k 是一個基於Transformer的編解碼器模型，旨在實現高質量、低比特率的音頻編碼。它通過將音頻波形編碼為離散的令牌，之後再將這些令牌解碼回原始音頻波形來處理音頻。

請注意：對於年營收達到100萬美元（或等值當地貨幣）及以上的個人或組織，無論營收來源如何，在商業使用Stable Codec、其任何衍生作品（如“微調”模型）或其輸出之前，必須直接從Stability AI獲得企業商業許可。您可以在https://stability.ai/enterprise提交企業許可申請。更多信息請參考Stability AI的社區許可協議：https://stability.ai/license。

🚀 快速開始

如需使用說明，請參考我們的GitHub倉庫。

✨ 主要特性

高效音頻編碼：能夠將音頻波形編碼為離散令牌，實現高質量、低比特率的音頻編碼。
廣泛應用場景：可用於語音信號的高效壓縮、增強基於語音的應用、音頻編碼和語音合成的研究與開發，以及下游應用的開發。

📚 詳細文檔

模型描述

開發者：Stability AI
模型類型：Transformer音頻編解碼器模型
模型詳情：此發佈的模型是一個語音編解碼器，旨在將現實世界的語音數據壓縮成適合生成式建模的格式。它為開發語音理解和生成的下游應用（如文本轉語音系統和對話式AI模型）提供了基礎工具。請查看我們的arXiv頁面和Github倉庫以獲取詳細信息。

許可證

社區許可：對於年營收低於100萬美元（或等值當地貨幣）的組織和個人，可免費用於研究、非商業和商業用途。如果您的年營收超過100萬美元，任何對該模型或其衍生作品的商業使用都需要直接從Stability AI獲得企業許可。您可以在https://stability.ai/enterprise提交企業許可申請。更多信息請參考Stability AI的社區許可協議：https://stability.ai/license。