開源語音生成模型csm-1b - 免費根據文本與音頻輸入生成RVQ音頻編碼

首頁

Csm 1b

由sesame開發

CSM是Sesame開發的10億參數規模語音生成模型，可根據文本和音頻輸入生成RVQ音頻編碼

語音合成

Safetensors

英語開源協議:Apache-2.0 #多輪對話語音生成 #高保真音色控制 #上下文感知合成

下載量 65.03k

發布時間 : 3/6/2025

模型概述

對話語音模型，採用Llama主幹網絡和輕量級音頻解碼器架構，能生成Mimi音頻編碼，適用於文本轉語音任務

模型特點

上下文感知生成

支持通過上下文音頻片段生成更自然的對話語音

多音色支持

基礎模型可生成多種音色（需配合微調實現特定音色）

高效架構

結合Llama主幹網絡與輕量級解碼器，平衡性能與效率

模型能力

文本轉語音生成

對話語音合成

多說話人語音生成

使用案例

語音交互

虛擬助手

為對話系統生成自然語音響應

演示中展示了流暢的對話交互效果

內容創作

有聲內容生成

將文本內容轉換為語音

🚀 CSM 1B

CSM（對話語音模型）是由 Sesame 推出的語音生成模型，它能夠根據文本和音頻輸入生成 RVQ 音頻代碼。該模型架構採用了 Llama 主幹網絡和一個較小的音頻解碼器，可生成 Mimi 音頻代碼。

🚀 快速開始

2025/03/13 - 我們發佈了 1B 版本的 CSM 變體。代碼可在 GitHub 上獲取：SesameAILabs/csm。

✨ 主要特性

基於 Llama 架構，具有強大的語言理解能力。
能夠根據文本和音頻輸入生成高質量的音頻代碼。
微調後的變體為交互式語音演示提供支持。
提供託管的 HuggingFace 空間用於測試音頻生成。

📦 安裝指南

git clone git@github.com:SesameAILabs/csm.git
cd csm
python3.10 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

# 你需要訪問 sesame/csm-1b 和 meta-llama/Llama-3.2-1B
huggingface-cli login

💻 使用示例

基礎用法

from generator import load_csm_1b
import torchaudio

generator = load_csm_1b(device="cuda")

audio = generator.generate(
    text="Hello from Sesame.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

高級用法

CSM 在提供上下文時效果最佳。你可以使用 Segment 為每個說話者的話語向模型提供提示或上下文。

speakers = [0, 1, 0, 0]
transcripts = [
    "Hey how are you doing.",
    "Pretty good, pretty good.",
    "I'm great.",
    "So happy to be speaking to you.",
]
audio_paths = [
    "utterance_0.wav",
    "utterance_1.wav",
    "utterance_2.wav",
    "utterance_3.wav",
]

def load_audio(audio_path):
    audio_tensor, sample_rate = torchaudio.load(audio_path)
    audio_tensor = torchaudio.functional.resample(
        audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
    )
    return audio_tensor

segments = [
    Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
    for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
    text="Me too, this is some cool stuff huh?",
    speaker=1,
    context=segments,
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)