开源CSM - 1B对话语音模型，免费部署，从文本和音频生成RVQ音频编码

首页

Csm 1b

由 unsloth 开发

CSM（对话语音模型）是Sesame开发的1B参数语音生成模型，可从文本和音频输入生成RVQ音频编码。

语音合成

Safetensors

英语开源协议:Apache-2.0 #对话语音生成 #多说话人支持 #上下文感知

下载量 2,667

发布时间 : 5/15/2025

模型简介

CSM是基于Llama主干网络和轻量级音频解码器的语音生成模型，可生成Mimi音频编码。经过微调的CSM变体支持交互式语音演示。

模型特点

高效性能

使用Unsloth运行时提速1.5倍，内存减少58%

上下文感知

支持通过上下文音频片段提升生成质量

多说话人支持

可通过speaker参数控制不同说话人音色

模型能力

文本转语音生成

多说话人语音合成

上下文感知语音生成

使用案例

语音交互

对话式语音助手

结合LLM生成文本后转换为自然语音

实现更自然的语音交互体验

内容创作

有声内容生成

将文本内容转换为语音

快速生成播客、有声书等内容

🚀 文本转语音模型项目

本项目提供了一系列文本转语音（TTS）模型，可用于语音生成。借助这些模型，用户能够将文本转化为自然流畅的语音，在多种场景中发挥作用，如有声读物制作、语音导航等。

🚀 快速开始

查看我们所有的TTS模型上传，请访问我们的集合。
学习微调TTS模型，阅读我们的指南。
Unsloth Dynamic 2.0 实现了卓越的准确性，性能优于其他领先的量化方法。

点击以下链接获取更多信息：

你还可以免费使用我们的Google Colab笔记本来微调TTS模型。阅读我们关于TTS支持的博客：unsloth.ai/blog/tts。

支持的模型及性能

模型名称	免费笔记本	性能提升	内存使用降低
Sesame - CSM - 1B	▶️ 在Colab上开始	快1.5倍	减少58%
Whisper Large V3	▶️ 在Colab上开始	快1.5倍	减少50%
Qwen3 (14B)	▶️ 在Colab上开始	快2倍	减少70%
Llama 3.2 Vision (11B)	▶️ 在Colab上开始	快1.8倍	减少50%

✨ 主要特性

CSM 1B模型发布

2025年3月13日，我们发布了1B的CSM变体。代码可在GitHub上获取：SesameAILabs/csm。

CSM模型介绍

CSM（对话语音模型）是来自 Sesame 的语音生成模型，它可以根据文本和音频输入生成RVQ音频代码。该模型架构采用了 Llama 主干和一个较小的音频解码器，用于生成 Mimi 音频代码。

一个经过微调的CSM变体为我们博客文章中展示的交互式语音演示提供支持。此外，还有一个托管的 HuggingFace空间可用于测试音频生成。

📦 安装指南

git clone git@github.com:SesameAILabs/csm.git
cd csm
python3.10 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

# 你需要访问sesame/csm-1b和meta-llama/Llama-3.2-1B
huggingface-cli login

💻 使用示例

基础用法

from generator import load_csm_1b
import torchaudio

generator = load_csm_1b(device="cuda")

audio = generator.generate(
    text="Hello from Sesame.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

高级用法

CSM在提供上下文时效果最佳。你可以使用 Segment 为每个说话者的话语向模型提供提示或上下文。

speakers = [0, 1, 0, 0]
transcripts = [
    "Hey how are you doing.",
    "Pretty good, pretty good.",
    "I'm great.",
    "So happy to be speaking to you.",
]
audio_paths = [
    "utterance_0.wav",
    "utterance_1.wav",
    "utterance_2.wav",
    "utterance_3.wav",
]

def load_audio(audio_path):
    audio_tensor, sample_rate = torchaudio.load(audio_path)
    audio_tensor = torchaudio.functional.resample(
        audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
    )
    return audio_tensor

segments = [
    Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
    for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
    text="Me too, this is some cool stuff huh?",
    speaker=1,
    context=segments,
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)