C

Csm 1b

Developed by eustlb
CSM是由Sesame开发的1B参数语音生成模型,可通过文本和音频输入生成RVQ音频编码,支持带上下文的语音生成。
Downloads 5,144
Release Time : 3/26/2025

Model Overview

基于Llama主干网络和轻量级音频解码器的语音生成模型,可输出Mimi音频编码,适用于文本转语音任务。

Model Features

上下文感知生成
支持通过历史对话音频和文本作为上下文输入,优化当前语音生成效果
高效架构设计
采用Llama主干网络结合轻量级解码器,平衡生成质量与计算效率
多模态输入
支持同时处理文本和音频输入,实现更自然的语音交互

Model Capabilities

文本转语音生成
上下文感知语音合成
多说话人语音生成

Use Cases

交互式语音应用
语音助手
为对话系统提供自然语音输出
演示案例显示可生成带情感语调的语音
内容创作
有声内容生成
将文本内容自动转换为语音
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase