C

Csm 1b Safetensors Fp16

Developed by lunahr
CSM(対話音声モデル)はSesameが開発した10億パラメータの音声生成モデルで、テキストと音声入力からRVQオーディオエンコーディングを生成できます。
Downloads 79
Release Time : 4/25/2025

Model Overview

このモデルはLlamaバックボーンネットワークと軽量オーディオデコーダを採用し、Mimiオーディオエンコーディングを生成可能で、テキスト読み上げタスクに適しています。

Model Features

複数話者対応
モデルは異なる話者IDを指定可能で、異なる音色の音声を生成できます
コンテキスト認識
対話の文脈を利用してより自然な音声出力を生成可能
効率的なアーキテクチャ
Llamaバックボーンネットワークと軽量デコーダに基づき、性能と効率をバランス

Model Capabilities

テキスト読み上げ
複数話者音声生成
コンテキスト認識音声合成

Use Cases

インタラクティブ音声アプリケーション
音声アシスタント
仮想アシスタントに自然な音声出力を提供
Sesameのインタラクティブ音声デモで展示
対話システム
一貫性のある対話音声を生成
文脈に応じて音声スタイルを調整可能
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase