csm-expressiva-1b開源情感語音模型 - 免費實現耳語風格語音合成

首頁

Csm Expressiva 1b

由senstella開發

基於CSM-1b對話語音模型微調的情感語音模型，支持耳語風格語音合成

語音合成英語#耳語風格TTS #LoRA微調優化 #輕量化訓練

下載量 105

發布時間 : 4/10/2025

模型概述

本模型通過SFT微調CSM基礎模型，採用Expresso數據集中的耳語風格語音數據，驗證了csm-mlx代碼庫的LoRA微調效果，能夠生成具有特定情感特徵的語音。

模型特點

耳語風格語音合成

能夠生成具有特定耳語風格的情感語音

LoRA微調優化

使用低秩適應(LoRA)技術進行高效微調，保持基礎模型能力的同時添加新特徵

輕量級訓練

可在16GB內存的MacBook Air上完成訓練，適合資源有限的環境

穩定性提升

通過微調顯著減少了基礎模型的典型故障（如無限靜音）

模型能力

文本轉語音

情感語音合成

耳語風格生成

使用案例

語音合成

情感化語音助手

為語音助手添加耳語等情感化語音輸出能力

能夠生成自然的情感語音

有聲內容創作

為有聲書、播客等內容創作提供多樣化語音風格

可生成特定風格的語音內容

🚀 csm-experssiva

本項目是對 CSM（對話語音模型）進行的實驗性SFT微調，使用了 Expresso 的第4種低語語音。這是一個快速衍生項目，旨在驗證對 csm-mlx 倉庫進行SFT LoRA調優是否有效。

🚀 快速開始

本模型在配備16GB內存的MacBook Air M2上進行訓練，大量使用了交換空間，訓練耗時0:43:47。

倉庫中存在兩個風格的檢查點：

ckpt.pt 和 ckpt.safetensors 適用於基於原始PyTorch的CSM實現。
mlx-ckpt.safetensors 適用於 csm-mlx 倉庫。

⚠️ 重要提示

推理時請使用 speaker_id 4，因為模型是基於此進行訓練的！

📦 安裝指南

對於基於原始PyTorch的CSM實現，更改倉庫名稱即可，因為所有文件名都是相同的。

對於 csm-mlx，由於文件名不是 ckpt.safetensors 而是 mlx-ckpt.safetensors，因此應加載後者，示例代碼如下：

💻 使用示例

基礎用法

from mlx_lm.sample_utils import make_sampler
from huggingface_hub import hf_hub_download
from csm_mlx import CSM, csm_1b, generate

import audiofile
import numpy as np

csm = CSM(csm_1b())
weight = hf_hub_download(repo_id="senstella/csm-expressiva-1b", filename="mlx-ckpt.safetensors") # Here's the difference!
csm.load_weights(weight)

audio = generate(
    csm,
    text="Hello from Sesame.",
    speaker=4, # And this is another difference - please use 4 regardless of where you're inferencing!
    context=[],
    max_audio_length_ms=20_000,
    sampler=make_sampler(temp=0.8, top_k=50)
)

audiofile.write("./audio.wav", np.asarray(audio), 24000)

🔧 技術細節

訓練觀察

小數據集的SFT在一定程度上緩解了CSM基礎模型的失敗情況（如無盡的沉默等）。雖然有時仍會失敗，但比SFT調優前頻率大幅降低。
小規模的SFT運行可以很好地複製語音細節。
量化後模型似乎更加穩定！（此情況首次在此PR 中被報道）

超參數設置

屬性	詳情
`batch_size`	1
`epoch`	1
`first_codebook_weight_multiplier`	1.1
`learning-rate`	1e - 4
`weight-decay`	1e - 4
`optimizer`	adamw
`lora-rank`	8
`lora-alpha`	16
`target-modules`	attn, codebook0_head, projection

未來計劃是在 csm-mlx 上實現KTO，並使用該方法進一步緩解模型失敗的情況。

📄 許可證

本模型的許可證遵循Expresso數據集的 cc-by-nc-4.0 許可協議，因為它是基於該數據集進行訓練的！

說明

本模型進行微調是為了研究CSM - 1b模型是否具有有效壓縮和重建低語風格語音特徵的新興能力，這是傳統TTS模型通常不具備的。同時，它也作為對 csm-mlx 訓練設置及其損失函數正確性的初步驗證。需要明確的是，我 不支持或鼓勵 對該模型的任何不當使用。任何意外的關聯或解釋都不反映該模型的設計意圖。