C

Csm 1b

sesameによって開発
CSMはSesameが開発した10億パラメータ規模の音声生成モデルで、テキストと音声入力からRVQ音声エンコーディングを生成可能
ダウンロード数 65.03k
リリース時間 : 3/6/2025

モデル概要

対話音声モデルで、Llamaバックボーンネットワークと軽量音声デコーダーアーキテクチャを採用し、Mimi音声エンコーディングを生成可能、テキスト読み上げタスクに適応

モデル特徴

コンテキスト認識生成
コンテキスト音声フラグメントを通じてより自然な対話音声を生成可能
マルチ音色サポート
基本モデルで複数音色を生成可能(特定音色はファインチューニングが必要)
効率的アーキテクチャ
Llamaバックボーンネットワークと軽量デコーダーを組み合わせ、性能と効率性をバランス

モデル能力

テキスト読み上げ生成
対話音声合成
マルチスピーカー音声生成

使用事例

音声インタラクション
仮想アシスタント
対話システム向けに自然な音声応答を生成
デモでは流暢な対話インタラクション効果を展示
コンテンツ制作
音声コンテンツ生成
テキストコンテンツを音声に変換
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase