C

Csm 1b

eustlbによって開発
CSMはSesameが開発した1Bパラメータの音声生成モデルで、テキストと音声入力からRVQ音声エンコードを生成でき、コンテキストを考慮した音声生成をサポートします。
ダウンロード数 5,144
リリース時間 : 3/26/2025

モデル概要

Llamaバックボーンネットワークと軽量音声デコーダーを基盤とした音声生成モデルで、Mimi音声エンコードを出力可能、テキスト読み上げタスクに適しています。

モデル特徴

コンテキスト認識生成
過去の対話音声やテキストをコンテキスト入力として利用可能、現在の音声生成効果を最適化
効率的なアーキテクチャ設計
Llamaバックボーンネットワークと軽量デコーダーを組み合わせ、生成品質と計算効率のバランスを実現
マルチモーダル入力
テキストと音声入力を同時処理可能、より自然な音声インタラクションを実現

モデル能力

テキスト読み上げ生成
コンテキスト認識音声合成
複数話者音声生成

使用事例

インタラクティブ音声アプリケーション
音声アシスタント
対話システムに自然な音声出力を提供
デモケースでは感情的な抑揚を含む音声生成が可能
コンテンツ制作
音声コンテンツ生成
テキストコンテンツを自動的に音声に変換
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase