csm-expressiva-1b开源情感语音模型 - 免费实现耳语风格语音合成

首页

Csm Expressiva 1b

由 senstella 开发

基于CSM-1b对话语音模型微调的情感语音模型，支持耳语风格语音合成

语音合成英语#耳语风格TTS #LoRA微调优化 #轻量化训练

下载量 105

发布时间 : 4/10/2025

模型简介

本模型通过SFT微调CSM基础模型，采用Expresso数据集中的耳语风格语音数据，验证了csm-mlx代码库的LoRA微调效果，能够生成具有特定情感特征的语音。

模型特点

耳语风格语音合成

能够生成具有特定耳语风格的情感语音

LoRA微调优化

使用低秩适应(LoRA)技术进行高效微调，保持基础模型能力的同时添加新特征

轻量级训练

可在16GB内存的MacBook Air上完成训练，适合资源有限的环境

稳定性提升

通过微调显著减少了基础模型的典型故障（如无限静音）

模型能力

文本转语音

情感语音合成

耳语风格生成

使用案例

语音合成

情感化语音助手

为语音助手添加耳语等情感化语音输出能力

能够生成自然的情感语音

有声内容创作

为有声书、播客等内容创作提供多样化语音风格

可生成特定风格的语音内容

🚀 csm-experssiva

本项目是对 CSM（对话语音模型）进行的实验性SFT微调，使用了 Expresso 的第4种低语语音。这是一个快速衍生项目，旨在验证对 csm-mlx 仓库进行SFT LoRA调优是否有效。

🚀 快速开始

本模型在配备16GB内存的MacBook Air M2上进行训练，大量使用了交换空间，训练耗时0:43:47。

仓库中存在两个风格的检查点：

ckpt.pt 和 ckpt.safetensors 适用于基于原始PyTorch的CSM实现。
mlx-ckpt.safetensors 适用于 csm-mlx 仓库。

⚠️ 重要提示

推理时请使用 speaker_id 4，因为模型是基于此进行训练的！

📦 安装指南

对于基于原始PyTorch的CSM实现，更改仓库名称即可，因为所有文件名都是相同的。

对于 csm-mlx，由于文件名不是 ckpt.safetensors 而是 mlx-ckpt.safetensors，因此应加载后者，示例代码如下：

💻 使用示例

基础用法

from mlx_lm.sample_utils import make_sampler
from huggingface_hub import hf_hub_download
from csm_mlx import CSM, csm_1b, generate

import audiofile
import numpy as np

csm = CSM(csm_1b())
weight = hf_hub_download(repo_id="senstella/csm-expressiva-1b", filename="mlx-ckpt.safetensors") # Here's the difference!
csm.load_weights(weight)

audio = generate(
    csm,
    text="Hello from Sesame.",
    speaker=4, # And this is another difference - please use 4 regardless of where you're inferencing!
    context=[],
    max_audio_length_ms=20_000,
    sampler=make_sampler(temp=0.8, top_k=50)
)

audiofile.write("./audio.wav", np.asarray(audio), 24000)

🔧 技术细节

训练观察

小数据集的SFT在一定程度上缓解了CSM基础模型的失败情况（如无尽的沉默等）。虽然有时仍会失败，但比SFT调优前频率大幅降低。
小规模的SFT运行可以很好地复制语音细节。
量化后模型似乎更加稳定！（此情况首次在此PR 中被报道）

超参数设置

属性	详情
`batch_size`	1
`epoch`	1
`first_codebook_weight_multiplier`	1.1
`learning-rate`	1e - 4
`weight-decay`	1e - 4
`optimizer`	adamw
`lora-rank`	8
`lora-alpha`	16
`target-modules`	attn, codebook0_head, projection

未来计划是在 csm-mlx 上实现KTO，并使用该方法进一步缓解模型失败的情况。

📄 许可证

本模型的许可证遵循Expresso数据集的 cc-by-nc-4.0 许可协议，因为它是基于该数据集进行训练的！

说明

本模型进行微调是为了研究CSM - 1b模型是否具有有效压缩和重建低语风格语音特征的新兴能力，这是传统TTS模型通常不具备的。同时，它也作为对 csm-mlx 训练设置及其损失函数正确性的初步验证。需要明确的是，我 不支持或鼓励 对该模型的任何不当使用。任何意外的关联或解释都不反映该模型的设计意图。