C

Csm 1b Safetensors Fp16

lunahrによって開発
CSM(対話音声モデル)はSesameが開発した10億パラメータの音声生成モデルで、テキストと音声入力からRVQオーディオエンコーディングを生成できます。
ダウンロード数 79
リリース時間 : 4/25/2025

モデル概要

このモデルはLlamaバックボーンネットワークと軽量オーディオデコーダを採用し、Mimiオーディオエンコーディングを生成可能で、テキスト読み上げタスクに適しています。

モデル特徴

複数話者対応
モデルは異なる話者IDを指定可能で、異なる音色の音声を生成できます
コンテキスト認識
対話の文脈を利用してより自然な音声出力を生成可能
効率的なアーキテクチャ
Llamaバックボーンネットワークと軽量デコーダに基づき、性能と効率をバランス

モデル能力

テキスト読み上げ
複数話者音声生成
コンテキスト認識音声合成

使用事例

インタラクティブ音声アプリケーション
音声アシスタント
仮想アシスタントに自然な音声出力を提供
Sesameのインタラクティブ音声デモで展示
対話システム
一貫性のある対話音声を生成
文脈に応じて音声スタイルを調整可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase