開源CSM - 1b - safetensors - quants語音模型，支持文本音頻輸入生成RVQ音頻編碼

首頁

Csm 1b Safetensors Quants

由lunahr開發

CSM（對話語音模型）是Sesame開發的10億參數語音生成模型，可通過文本和音頻輸入生成RVQ音頻編碼。

語音合成

Transformers

英語開源協議:Apache-2.0 #對話語音生成 #多說話人支持 #上下文感知合成

下載量 37

發布時間 : 3/15/2025

模型概述

基於Llama主幹網絡和輕量級音頻解碼器的語音生成模型，支持文本轉語音功能，輸出Mimi音頻編碼。

模型特點

多說話人支持

可通過speaker參數控制不同說話人音色

上下文感知生成

支持通過上下文音頻片段增強生成效果

安全張量格式

支持多種安全張量格式並統計下載量

模型能力

文本轉語音

多說話人語音生成

上下文感知語音合成

使用案例

語音交互

對話系統語音輸出

與LLM結合構建完整對話系統

交互式語音演示已在博客展示

內容創作

有聲內容生成

自動生成播客、有聲書等語音內容

🚀 CSM 1B (Safetensors)

CSM 1B (Safetensors) 是將原始版本轉換為各種 Safetensors 格式的模型，同時還會跟蹤下載情況。

2025/03/13 - 我們發佈了 1B 版本的 CSM 變體。代碼可在 GitHub 上獲取：SesameAILabs/csm。

🚀 快速開始

CSM（對話語音模型，Conversational Speech Model）是來自 Sesame 的語音生成模型，它可以根據文本和音頻輸入生成 RVQ 音頻代碼。該模型架構採用了 Llama 主幹和一個較小的音頻解碼器，用於生成 Mimi 音頻代碼。

經過微調的 CSM 變體為我們博客文章中展示的交互式語音演示提供支持。

此外，還有一個託管的 HuggingFace 空間可用於測試音頻生成。

📦 安裝指南

設置倉庫：

python -m venv .venv
source .venv/bin/activate
curl -s -L https://raw.githubusercontent.com/SesameAILabs/csm/refs/heads/main/requirements.txt | pip install -r /dev/stdin

# You will need access to sesame/csm-1b and meta-llama/Llama-3.2-1B
huggingface-cli login

💻 使用示例

基礎用法

生成一個句子：

from generator import load_csm_1b
import torchaudio

generator = load_csm_1b(device="cuda")

audio = generator.generate(
    text="Hello from Sesame.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

高級用法

CSM 在提供上下文時效果最佳。你可以為每個說話者的話語使用 Segment 為模型提供提示或上下文：

speakers = [0, 1, 0, 0]
transcripts = [
    "Hey how are you doing.",
    "Pretty good, pretty good.",
    "I'm great.",
    "So happy to be speaking to you.",
]
audio_paths = [
    "utterance_0.wav",
    "utterance_1.wav",
    "utterance_2.wav",
    "utterance_3.wav",
]

def load_audio(audio_path):
    audio_tensor, sample_rate = torchaudio.load(audio_path)
    audio_tensor = torchaudio.functional.resample(
        audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
    )
    return audio_tensor

segments = [
    Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
    for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
    text="Me too, this is some cool stuff huh?",
    speaker=1,
    context=segments,
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)