csm-1b開源語音生成模型 - 免費從文本和音頻輸入生成音頻編碼

Home

Csm 1b

Developed by chutesai

CSM（對話語音模型）是由Sesame開發的10億參數語音生成模型，可從文本和音頻輸入生成RVQ音頻編碼。

語音合成

Transformers

EnglishOpen Source License:Apache-2.0 #多說話人語音生成 #上下文感知TTS #Llama架構音頻模型

Downloads 814

Release Time : 3/18/2025

Model Overview

CSM是基於Llama主幹網絡和輕量級音頻解碼器的語音生成模型，支持從文本和音頻輸入生成Mimi音頻編碼，適用於文本轉語音任務。

Model Features

多音色生成

基礎生成模型可生成多種音色，支持通過上下文提示優化音色表現

上下文感知

通過提供對話上下文（文本+音頻）可顯著提升生成質量

高效架構

基於Llama主幹網絡和輕量級解碼器，平衡性能與效率

Model Capabilities

文本轉語音

多音色語音生成

上下文感知語音合成

Use Cases

語音交互

對話式語音助手

結合LLM生成文本後轉換為自然語音

實現更自然的語音交互體驗

內容創作

有聲內容生成

將文本內容自動轉換為語音

高效生成有聲書、播客等音頻內容

🚀 CSM 1B (Safetensors)

CSM 1B (Safetensors) 是一個語音生成模型，可根據文本和音頻輸入生成 RVQ 音頻代碼。它轉換自原始版本，採用 Safetensors FP16 格式，具有更新的配置和指向無門控 Llama 的代碼。

🚀 快速開始

模型介紹

CSM（Conversational Speech Model）是 Sesame 推出的語音生成模型，能從文本和音頻輸入中生成 RVQ 音頻代碼。該模型架構採用 Llama 主幹和一個較小的音頻解碼器，可生成 Mimi 音頻代碼。

版本信息

Safetensors 格式：來自此處，轉換自原始版本為 Safetensors FP16 格式，還會跟蹤下載情況。
發佈時間：2025/03/13 發佈 1B CSM 變體，代碼可在 GitHub 上獲取：SesameAILabs/csm。

📦 安裝指南

git clone git@github.com:SesameAILabs/csm.git
cd csm
python3.10 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

💻 使用示例

基礎用法

from generator import load_csm_1b
import torchaudio

generator = load_csm_1b(device="cuda")
audio = generator.generate(
    text="Hello from Sesame.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

高級用法

當為模型提供上下文時，CSM 的效果最佳。你可以使用 Segment 為每個說話者的話語提供提示或上下文。

speakers = [0, 1, 0, 0]
transcripts = [
    "Hey how are you doing.",
    "Pretty good, pretty good.",
    "I'm great.",
    "So happy to be speaking to you.",
]
audio_paths = [
    "utterance_0.wav",
    "utterance_1.wav",
    "utterance_2.wav",
    "utterance_3.wav",
]

def load_audio(audio_path):
    audio_tensor, sample_rate = torchaudio.load(audio_path)
    audio_tensor = torchaudio.functional.resample(
        audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
    )
    return audio_tensor

segments = [
    Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
    for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
    text="Me too, this is some cool stuff huh?",
    speaker=1,
    context=segments,
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)