🚀 stable-codec-speech-16k モデルカード
stable-codec-speech-16k
は、高品質で低ビットレートのオーディオコーディングを目的としたTransformerベースのコーデックモデルです。オーディオ波形を離散トークンにエンコードし、後で元のオーディオ波形にデコードすることができます。
なお、年間収益が100万米ドル(または同等の現地通貨)以上の個人または組織は、Stable Codec、Stable Codecの派生作品(「ファインチューニング」モデルなど)、またはそれらの出力を商用利用する前に、Stability AIから直接エンタープライズ商用ライセンスを取得する必要があります。エンタープライズライセンスの申請は、https://stability.ai/enterprise で行うことができます。詳細については、https://stability.ai/license にあるStability AIのコミュニティライセンスを参照してください。

🚀 クイックスタート
このモデルを使用するには、GitHubリポジトリを参照してください。
✨ 主な機能
- 音声信号の効率的な圧縮(保存またはストリーミング目的)
- 音声ベースのアプリケーション(電気通信システムやリアルタイム通信プラットフォームなど)の強化
- オーディオコーディングと音声合成の研究開発(コーデック性能の理解と改善を含む)
- 音声認識や音声生成などの下流アプリケーションの開発
すべてのモデルの使用は、利用規約に準拠する必要があります。
📚 ドキュメント
モデルの説明
- 開発元: Stability AI
- モデルの種類: Transformerオーディオコーデックモデル
- モデルの詳細: この公開されたモデルは、現実世界の音声データを生成モデリングに適した形式に圧縮するための音声コーデックです。音声理解や音声生成の下流アプリケーション(テキスト読み上げシステムや会話型AIモデルなど)の開発に基礎的なツールを提供します。
詳細については、arXivページとGithubリポジトリを確認してください。
ライセンス
- コミュニティライセンス: 年間収益が100万米ドル(または同等の現地通貨)以上の組織や個人による研究、非商用、商用利用に無料です。年間収益が100万米ドルを超える場合、このモデルまたはその派生作品の商用利用には、Stability AIから直接エンタープライズライセンスを取得する必要があります。エンタープライズライセンスの申請は、https://stability.ai/enterprise で行うことができます。詳細については、https://stability.ai/license にあるStability AIのコミュニティライセンスを参照してください。
モデルのソース
- リポジトリ: https://github.com/Stability-AI/stable-codec
- オーディオデモ: https://stability-ai.github.io/stable-codec-demo/
- arXivページ: https://arxiv.org/abs/2411.19842
トレーニングデータセット
このモデルは、クリエイティブ・コモンズまたはパブリックドメインのオーディオブック録音から派生したデータセットでトレーニングされました。詳細については、学術論文を参照してください。
想定される用途
- 音声信号の保存またはストリーミングのための効率的な圧縮
- 電気通信システムやリアルタイム通信プラットフォームなどの音声ベースのアプリケーションの強化
- オーディオコーディングと音声合成の研究開発(コーデック性能の理解と改善を含む)
- 音声認識や音声生成などの下流アプリケーションの開発
すべてのモデルの使用は、利用規約に準拠する必要があります。
想定外の用途
このモデルは、重複しないクリーンな英語の音声のみでトレーニングされており、これらの状況で最適な性能を発揮します。高忠実度の音楽や環境音のコーディングを必要とするアプリケーションには適していません。
お問い合わせ
モデルに関する問題やお問い合わせは、以下の連絡先までお願いします。
- セーフティ関連の問題: safety@stability.ai
- セキュリティ関連の問題: security@stability.ai
- プライバシー関連の問題: privacy@stability.ai
- ライセンス関連および一般的な問い合わせ: https://stability.ai/license
- エンタープライズライセンスに関する問い合わせ: https://stability.ai/enterprise
属性 |
详情 |
モデルの種類 |
Transformerオーディオコーデックモデル |
トレーニングデータ |
クリエイティブ・コモンズまたはパブリックドメインのオーディオブック録音から派生したデータセット |