C

Csm 1b Safetensors Quants

lunahrによって開発
CSM(対話音声モデル)はSesameが開発した10億パラメータの音声生成モデルで、テキストと音声入力からRVQ音声エンコーディングを生成可能です。
ダウンロード数 37
リリース時間 : 3/15/2025

モデル概要

Llamaバックボーンネットワークと軽量音声デコーダーを基盤とした音声生成モデルで、テキスト読み上げ機能をサポートし、Mimi音声エンコーディングを出力します。

モデル特徴

マルチスピーカー対応
speakerパラメータで異なる話者の声色を制御可能
コンテキスト認識生成
コンテキスト音声フラグメントを通じて生成効果を強化
セーフティテンソル形式
複数のセーフティテンソル形式をサポートしダウンロード数を統計

モデル能力

テキスト読み上げ
マルチスピーカー音声生成
コンテキスト認識音声合成

使用事例

音声インタラクション
対話システム音声出力
LLMと組み合わせて完全な対話システムを構築
インタラクティブ音声デモはブログで公開済み
コンテンツ制作
音声コンテンツ生成
ポッドキャスト、オーディオブック等の音声コンテンツを自動生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase