C

Csm 1b

Developed by chutesai
CSM(對話語音模型)是由Sesame開發的10億參數語音生成模型,可從文本和音頻輸入生成RVQ音頻編碼。
Downloads 814
Release Time : 3/18/2025

Model Overview

CSM是基於Llama主幹網絡和輕量級音頻解碼器的語音生成模型,支持從文本和音頻輸入生成Mimi音頻編碼,適用於文本轉語音任務。

Model Features

多音色生成
基礎生成模型可生成多種音色,支持通過上下文提示優化音色表現
上下文感知
通過提供對話上下文(文本+音頻)可顯著提升生成質量
高效架構
基於Llama主幹網絡和輕量級解碼器,平衡性能與效率

Model Capabilities

文本轉語音
多音色語音生成
上下文感知語音合成

Use Cases

語音交互
對話式語音助手
結合LLM生成文本後轉換為自然語音
實現更自然的語音交互體驗
內容創作
有聲內容生成
將文本內容自動轉換為語音
高效生成有聲書、播客等音頻內容
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase