開源CSM-1b語音生成模型 - 憑藉文本和音頻輸入生成RVQ音頻編碼

首頁

Csm 1b Safetensors Fp16

由lunahr開發

CSM（對話語音模型）是由Sesame開發的10億參數語音生成模型，可通過文本和音頻輸入生成RVQ音頻編碼。

語音合成

Transformers

英語開源協議:Apache-2.0 #對話語音生成 #多說話人支持 #上下文感知合成

下載量 79

發布時間 : 4/25/2025

模型概述

該模型採用Llama主幹網絡和輕量級音頻解碼器，可生成Mimi音頻編碼，適用於文本轉語音任務。

模型特點

多說話人支持

模型支持指定不同說話人ID，可生成不同音色的語音

上下文感知

能夠利用對話上下文生成更自然的語音輸出

高效架構

基於Llama主幹網絡和輕量級解碼器，平衡性能與效率

模型能力

文本轉語音

多說話人語音生成

上下文感知語音合成

使用案例

交互式語音應用

語音助手

為虛擬助手提供自然語音輸出

在Sesame的交互式語音演示中展示

對話系統

生成連貫的對話語音

能夠根據上下文調整語音風格

🚀 CSM 1B (Safetensors)

CSM 1B (Safetensors) 是一個將原始版本轉換為各種 Safetensors 格式的語音生成模型，同時還會跟蹤下載情況。

🚀 快速開始

2025 年 3 月 13 日，我們發佈了 1B 版本的 CSM 變體。代碼可在 GitHub 上獲取：SesameAILabs/csm。

CSM（Conversational Speech Model）是 Sesame 推出的語音生成模型，它能根據文本和音頻輸入生成 RVQ 音頻代碼。該模型架構採用了 Llama 主幹和一個較小的音頻解碼器，可生成 Mimi 音頻代碼。

經過微調的 CSM 變體為我們博客文章中展示的交互式語音演示提供支持。

此外，還有一個託管的 HuggingFace 空間可用於測試音頻生成。

📦 安裝指南

設置倉庫：

python -m venv .venv
source .venv/bin/activate
curl -s -L https://raw.githubusercontent.com/SesameAILabs/csm/refs/heads/main/requirements.txt | pip install -r /dev/stdin

# 你需要訪問 sesame/csm-1b 和 meta-llama/Llama-3.2-1B
huggingface-cli login

💻 使用示例

基礎用法

生成一個句子：

from generator import load_csm_1b
import torchaudio

generator = load_csm_1b(device="cuda")

audio = generator.generate(
    text="Hello from Sesame.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

高級用法

CSM 在提供上下文時效果最佳。你可以使用 Segment 為每個說話者的話語提供提示或上下文：

speakers = [0, 1, 0, 0]
transcripts = [
    "Hey how are you doing.",
    "Pretty good, pretty good.",
    "I'm great.",
    "So happy to be speaking to you.",
]
audio_paths = [
    "utterance_0.wav",
    "utterance_1.wav",
    "utterance_2.wav",
    "utterance_3.wav",
]

def load_audio(audio_path):
    audio_tensor, sample_rate = torchaudio.load(audio_path)
    audio_tensor = torchaudio.functional.resample(
        audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
    )
    return audio_tensor

segments = [
    Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
    for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
    text="Me too, this is some cool stuff huh?",
    speaker=1,
    context=segments,
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)