stable-codec-speech-16kオープンソース音声符号化・复号化モデル

ホーム

Stable Codec Speech 16k

stabilityaiによって開発

Transformerアーキテクチャに基づく高品質低ビットレート音声コーデックモデル、音声データ圧縮と生成モデリング専用に設計

音声生成

Safetensors

英語オープンソースライセンス:その他 #低ビットレート音声コーディング #Transformerエンコーダ・デコーダ #音声合成の基礎

ダウンロード数 1,072

リリース時間 : 1/10/2025

モデル概要

このモデルは音声波形を離散トークンにエンコードして処理し、音声信号を効率的に圧縮保存するとともに元のオーディオをデコード復元可能。音声生成や理解アプリケーションの基盤ツールとして機能

モデル特徴

高品質低ビットレートエンコーディング

音声データに最適化された圧縮技術で、高品質を維持しながら低ビットレートを実現

生成モデリング対応

出力形式が音声生成モデルの入力や訓練ターゲットとして特に適している

商用利用可能なライセンス

年間収益100万ドル未満の組織は商用利用無料

モデル能力

音声信号圧縮

オーディオストリーミング最適化

音声コーディング研究

音声合成基盤ツール

使用事例

通信強化

リアルタイム通信プラットフォーム

音声通話のデータ転送効率を最適化

帯域幅要件を低減しつつ音質を維持

音声技術開発

テキストto音声システム

音声生成モデルの前処理/後処理コンポーネントとして利用

対話型AI

音声インタラクションシステム開発を支援

🚀 stable-codec-speech-16k モデルカード

stable-codec-speech-16kは、高品質で低ビットレートのオーディオコーディングを目的としたTransformerベースのコーデックモデルです。オーディオ波形を離散トークンにエンコードし、後で元のオーディオ波形にデコードすることができます。

なお、年間収益が100万米ドル（または同等の現地通貨）以上の個人または組織は、Stable Codec、Stable Codecの派生作品（「ファインチューニング」モデルなど）、またはそれらの出力を商用利用する前に、Stability AIから直接エンタープライズ商用ライセンスを取得する必要があります。エンタープライズライセンスの申請は、https://stability.ai/enterprise で行うことができます。詳細については、https://stability.ai/license にあるStability AIのコミュニティライセンスを参照してください。

arch

🚀 クイックスタート

このモデルを使用するには、GitHubリポジトリを参照してください。

✨ 主な機能

音声信号の効率的な圧縮（保存またはストリーミング目的）
音声ベースのアプリケーション（電気通信システムやリアルタイム通信プラットフォームなど）の強化
オーディオコーディングと音声合成の研究開発（コーデック性能の理解と改善を含む）
音声認識や音声生成などの下流アプリケーションの開発

すべてのモデルの使用は、利用規約に準拠する必要があります。

📚 ドキュメント

モデルの説明

開発元: Stability AI
モデルの種類: Transformerオーディオコーデックモデル
モデルの詳細: この公開されたモデルは、現実世界の音声データを生成モデリングに適した形式に圧縮するための音声コーデックです。音声理解や音声生成の下流アプリケーション（テキスト読み上げシステムや会話型AIモデルなど）の開発に基礎的なツールを提供します。詳細については、arXivページとGithubリポジトリを確認してください。

ライセンス

コミュニティライセンス: 年間収益が100万米ドル（または同等の現地通貨）以上の組織や個人による研究、非商用、商用利用に無料です。年間収益が100万米ドルを超える場合、このモデルまたはその派生作品の商用利用には、Stability AIから直接エンタープライズライセンスを取得する必要があります。エンタープライズライセンスの申請は、https://stability.ai/enterprise で行うことができます。詳細については、https://stability.ai/license にあるStability AIのコミュニティライセンスを参照してください。

モデルのソース

リポジトリ: https://github.com/Stability-AI/stable-codec
オーディオデモ: https://stability-ai.github.io/stable-codec-demo/
arXivページ: https://arxiv.org/abs/2411.19842

トレーニングデータセット

このモデルは、クリエイティブ・コモンズまたはパブリックドメインのオーディオブック録音から派生したデータセットでトレーニングされました。詳細については、学術論文を参照してください。

想定される用途

音声信号の保存またはストリーミングのための効率的な圧縮
電気通信システムやリアルタイム通信プラットフォームなどの音声ベースのアプリケーションの強化
オーディオコーディングと音声合成の研究開発（コーデック性能の理解と改善を含む）
音声認識や音声生成などの下流アプリケーションの開発

すべてのモデルの使用は、利用規約に準拠する必要があります。

想定外の用途

このモデルは、重複しないクリーンな英語の音声のみでトレーニングされており、これらの状況で最適な性能を発揮します。高忠実度の音楽や環境音のコーディングを必要とするアプリケーションには適していません。

お問い合わせ

モデルに関する問題やお問い合わせは、以下の連絡先までお願いします。

セーフティ関連の問題: safety@stability.ai
セキュリティ関連の問題: security@stability.ai
プライバシー関連の問題: privacy@stability.ai
ライセンス関連および一般的な問い合わせ: https://stability.ai/license
エンタープライズライセンスに関する問い合わせ: https://stability.ai/enterprise

属性	详情
モデルの種類	Transformerオーディオコーデックモデル
トレーニングデータ	クリエイティブ・コモンズまたはパブリックドメインのオーディオブック録音から派生したデータセット