C

Csm 1b

Developed by sesame
CSM是Sesame开发的10亿参数规模语音生成模型,可根据文本和音频输入生成RVQ音频编码
Downloads 65.03k
Release Time : 3/6/2025

Model Overview

对话语音模型,采用Llama主干网络和轻量级音频解码器架构,能生成Mimi音频编码,适用于文本转语音任务

Model Features

上下文感知生成
支持通过上下文音频片段生成更自然的对话语音
多音色支持
基础模型可生成多种音色(需配合微调实现特定音色)
高效架构
结合Llama主干网络与轻量级解码器,平衡性能与效率

Model Capabilities

文本转语音生成
对话语音合成
多说话人语音生成

Use Cases

语音交互
虚拟助手
为对话系统生成自然语音响应
演示中展示了流畅的对话交互效果
内容创作
有声内容生成
将文本内容转换为语音
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase