开源语音生成模型csm-1b - 免费根据文本与音频输入生成RVQ音频编码

Home

Csm 1b

Developed by sesame

CSM是Sesame开发的10亿参数规模语音生成模型，可根据文本和音频输入生成RVQ音频编码

语音合成

Safetensors

EnglishOpen Source License:Apache-2.0 #多轮对话语音生成 #高保真音色控制 #上下文感知合成

Downloads 65.03k

Release Time : 3/6/2025

Model Overview

对话语音模型，采用Llama主干网络和轻量级音频解码器架构，能生成Mimi音频编码，适用于文本转语音任务

Model Features

上下文感知生成

支持通过上下文音频片段生成更自然的对话语音

多音色支持

基础模型可生成多种音色（需配合微调实现特定音色）

高效架构

结合Llama主干网络与轻量级解码器，平衡性能与效率

Model Capabilities

文本转语音生成

对话语音合成

多说话人语音生成

Use Cases

语音交互

虚拟助手

为对话系统生成自然语音响应

演示中展示了流畅的对话交互效果

内容创作

有声内容生成

将文本内容转换为语音

🚀 CSM 1B

CSM（对话语音模型）是由 Sesame 推出的语音生成模型，它能够根据文本和音频输入生成 RVQ 音频代码。该模型架构采用了 Llama 主干网络和一个较小的音频解码器，可生成 Mimi 音频代码。

🚀 快速开始

2025/03/13 - 我们发布了 1B 版本的 CSM 变体。代码可在 GitHub 上获取：SesameAILabs/csm。

✨ 主要特性

基于 Llama 架构，具有强大的语言理解能力。
能够根据文本和音频输入生成高质量的音频代码。
微调后的变体为交互式语音演示提供支持。
提供托管的 HuggingFace 空间用于测试音频生成。

📦 安装指南

git clone git@github.com:SesameAILabs/csm.git
cd csm
python3.10 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

# 你需要访问 sesame/csm-1b 和 meta-llama/Llama-3.2-1B
huggingface-cli login

💻 使用示例

基础用法

from generator import load_csm_1b
import torchaudio

generator = load_csm_1b(device="cuda")

audio = generator.generate(
    text="Hello from Sesame.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

高级用法

CSM 在提供上下文时效果最佳。你可以使用 Segment 为每个说话者的话语向模型提供提示或上下文。

speakers = [0, 1, 0, 0]
transcripts = [
    "Hey how are you doing.",
    "Pretty good, pretty good.",
    "I'm great.",
    "So happy to be speaking to you.",
]
audio_paths = [
    "utterance_0.wav",
    "utterance_1.wav",
    "utterance_2.wav",
    "utterance_3.wav",
]

def load_audio(audio_path):
    audio_tensor, sample_rate = torchaudio.load(audio_path)
    audio_tensor = torchaudio.functional.resample(
        audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
    )
    return audio_tensor

segments = [
    Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
    for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
    text="Me too, this is some cool stuff huh?",
    speaker=1,
    context=segments,
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)