開源CSM - 1B對話語音模型，免費部署，從文本和音頻生成RVQ音頻編碼

首頁

Csm 1b

由unsloth開發

CSM（對話語音模型）是Sesame開發的1B參數語音生成模型，可從文本和音頻輸入生成RVQ音頻編碼。

語音合成

Safetensors

英語開源協議:Apache-2.0 #對話語音生成 #多說話人支持 #上下文感知

下載量 2,667

發布時間 : 5/15/2025

模型概述

CSM是基於Llama主幹網絡和輕量級音頻解碼器的語音生成模型，可生成Mimi音頻編碼。經過微調的CSM變體支持交互式語音演示。

模型特點

高效性能

使用Unsloth運行時提速1.5倍，內存減少58%

上下文感知

支持通過上下文音頻片段提升生成質量

多說話人支持

可通過speaker參數控制不同說話人音色

模型能力

文本轉語音生成

多說話人語音合成

上下文感知語音生成

使用案例

語音交互

對話式語音助手

結合LLM生成文本後轉換為自然語音

實現更自然的語音交互體驗

內容創作

有聲內容生成

將文本內容轉換為語音

快速生成播客、有聲書等內容

🚀 文本轉語音模型項目

本項目提供了一系列文本轉語音（TTS）模型，可用於語音生成。藉助這些模型，用戶能夠將文本轉化為自然流暢的語音，在多種場景中發揮作用，如有聲讀物製作、語音導航等。

🚀 快速開始

查看我們所有的TTS模型上傳，請訪問我們的集合。
學習微調TTS模型，閱讀我們的指南。
Unsloth Dynamic 2.0 實現了卓越的準確性，性能優於其他領先的量化方法。

點擊以下鏈接獲取更多信息：

你還可以免費使用我們的Google Colab筆記本來微調TTS模型。閱讀我們關於TTS支持的博客：unsloth.ai/blog/tts。

支持的模型及性能

模型名稱	免費筆記本	性能提升	內存使用降低
Sesame - CSM - 1B	▶️ 在Colab上開始	快1.5倍	減少58%
Whisper Large V3	▶️ 在Colab上開始	快1.5倍	減少50%
Qwen3 (14B)	▶️ 在Colab上開始	快2倍	減少70%
Llama 3.2 Vision (11B)	▶️ 在Colab上開始	快1.8倍	減少50%

✨ 主要特性

CSM 1B模型發佈

2025年3月13日，我們發佈了1B的CSM變體。代碼可在GitHub上獲取：SesameAILabs/csm。

CSM模型介紹

CSM（對話語音模型）是來自 Sesame 的語音生成模型，它可以根據文本和音頻輸入生成RVQ音頻代碼。該模型架構採用了 Llama 主幹和一個較小的音頻解碼器，用於生成 Mimi 音頻代碼。

一個經過微調的CSM變體為我們博客文章中展示的交互式語音演示提供支持。此外，還有一個託管的 HuggingFace空間可用於測試音頻生成。

📦 安裝指南

git clone git@github.com:SesameAILabs/csm.git
cd csm
python3.10 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

# 你需要訪問sesame/csm-1b和meta-llama/Llama-3.2-1B
huggingface-cli login

💻 使用示例

基礎用法

from generator import load_csm_1b
import torchaudio

generator = load_csm_1b(device="cuda")

audio = generator.generate(
    text="Hello from Sesame.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

高級用法

CSM在提供上下文時效果最佳。你可以使用 Segment 為每個說話者的話語向模型提供提示或上下文。

speakers = [0, 1, 0, 0]
transcripts = [
    "Hey how are you doing.",
    "Pretty good, pretty good.",
    "I'm great.",
    "So happy to be speaking to you.",
]
audio_paths = [
    "utterance_0.wav",
    "utterance_1.wav",
    "utterance_2.wav",
    "utterance_3.wav",
]

def load_audio(audio_path):
    audio_tensor, sample_rate = torchaudio.load(audio_path)
    audio_tensor = torchaudio.functional.resample(
        audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
    )
    return audio_tensor

segments = [
    Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
    for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
    text="Me too, this is some cool stuff huh?",
    speaker=1,
    context=segments,
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)