C

Csm 1b

chutesaiによって開発
CSM(対話音声モデル)はSesameが開発した10億パラメータの音声生成モデルで、テキストと音声入力からRVQ音声エンコーディングを生成できます。
ダウンロード数 814
リリース時間 : 3/18/2025

モデル概要

CSMはLlamaバックボーンネットワークと軽量音声デコーダーを基盤とした音声生成モデルで、テキストと音声入力からMimi音声エンコーディングを生成し、テキスト読み上げタスクに適しています。

モデル特徴

マルチボイス生成
基本生成モデルは複数の音色を生成可能で、コンテキストヒントによる音色表現の最適化をサポート
コンテキスト認識
対話コンテキスト(テキスト+音声)を提供することで生成品質を大幅に向上
効率的なアーキテクチャ
Llamaバックボーンネットワークと軽量デコーダーを採用し、性能と効率のバランスを実現

モデル能力

テキスト読み上げ
マルチボイス音声生成
コンテキスト認識音声合成

使用事例

音声インタラクション
対話型音声アシスタント
LLMで生成したテキストを自然な音声に変換
より自然な音声インタラクション体験を実現
コンテンツ制作
音声コンテンツ生成
テキストコンテンツを自動的に音声に変換
オーディオブックやポッドキャストなどの音声コンテンツを効率的に生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase