csm-expressiva-1bオープンソース感情音声モデル - 無料でささやきスタイルの音声合成を実現

Csm Expressiva 1b

Developed by senstella

CSM-1b対話音声モデルをファインチューニングした感情音声モデルで、ささやきスタイルの音声合成をサポート

音声合成 English#ささやきスタイルTTS #LoRAファインチューニング最適化 #軽量化トレーニング

Downloads 105

Release Time : 4/10/2025

Model Overview

本モデルはSFTファインチューニングによりCSMベースモデルを調整し、Expressoデータセットのささやきスタイル音声データを使用して、csm-mlxコードベースのLoRAファインチューニング効果を検証しました。特定の感情特徴を持つ音声を生成できます。

Model Features

ささやきスタイル音声合成

特定のささやきスタイルを持つ感情音声を生成可能

LoRAファインチューニング最適化

低ランク適応(LoRA)技術を使用した効率的なファインチューニングにより、ベースモデルの能力を維持しながら新機能を追加

軽量トレーニング

16GBメモリのMacBook Airでトレーニング可能で、リソースが限られた環境に適している

安定性向上

ファインチューニングによりベースモデルの典型的な故障（無限の無音など）を大幅に減少

Model Capabilities

テキストから音声へ

感情音声合成

ささやきスタイル生成

Use Cases

音声合成

感情的音声アシスタント

音声アシスタントにささやきなどの感情的音声出力機能を追加

自然な感情音声を生成可能

音声コンテンツ制作

オーディオブック、ポッドキャストなどのコンテンツ制作に多様な音声スタイルを提供

特定スタイルの音声コンテンツを生成可能

🚀 csm-experssiva

このプロジェクトは、CSM(Conversational Speech Model) を Expresso の4番目のささやき声で実験的にSFTファインチューニングしたものです。csm-mlx リポジトリのSFT LoRAチューニングがうまく機能するかを素早く確認するために作成されました。

🚀 クイックスタート

このモデルはMacBook Air M2 16GBで重いスワップを使用してトレーニングされ、0:43:47 の時間がかかりました。

✨ 主な機能

小規模なSFTにより、CSMベースモデルの失敗ケース（無限の沈黙など）がある程度軽減されます。
- 時々まだ失敗することがありますが、SFTチューニング前よりもはるかに少なくなります。
小規模なSFTでも、声をきれいに再現することができます。
量子化すると、はるかに安定するようです！（これはこのPR で最初に報告されました！）

📦 インストール

本READMEにはインストール手順に関する具体的な内容がありませんので、このセクションは省略されました。

💻 使用例

基本的な使用法

from mlx_lm.sample_utils import make_sampler
from huggingface_hub import hf_hub_download
from csm_mlx import CSM, csm_1b, generate

import audiofile
import numpy as np

csm = CSM(csm_1b())
weight = hf_hub_download(repo_id="senstella/csm-expressiva-1b", filename="mlx-ckpt.safetensors") # Here's the difference!
csm.load_weights(weight)

audio = generate(
    csm,
    text="Hello from Sesame.",
    speaker=4, # And this is another difference - please use 4 regardless of where you're inferencing!
    context=[],
    max_audio_length_ms=20_000,
    sampler=make_sampler(temp=0.8, top_k=50)
)

audiofile.write("./audio.wav", np.asarray(audio), 24000)

🔧 技術詳細

ハイパーパラメータ

ハイパーパラメータ	値
`batch_size`	1
`epoch`	1
`first_codebook_weight_multiplier`	1.1
`learning-rate`	1e-4
`weight-decay`	1e-4
`optimizer`	adamw
`lora-rank`	8
`lora-alpha`	16
`target-modules`	attn, codebook0_head, projection

今後の計画

csm-mlx でKTOを実装し、そのアプローチを使ってモデルの失敗ケースをさらに軽減する予定です。

📄 ライセンス

このモデルはExpressoデータセットからトレーニングされているため、ライセンスはExpressoデータセットの cc-by-nc-4.0 に従います。

注意事項

⚠️ 重要提示

推論時には speaker_id を4に設定してください。これはモデルがトレーニングされた設定です。

⚠️ 重要提示

このモデルは、CSM - 1bモデルがささやきスタイルの声の特徴を効果的に圧縮および再構築する緊急能力を示すかどうかを調査するためにファインチューニングされました。これは、従来のTTSモデルでは通常見られないものです。また、csm - mlxのトレーニングセットアップとその損失関数の正しさの予備的な検証としても機能します。このモデルの不適切な使用を私は決して支持または奨励しません。意図しない関連付けや解釈は、このモデルの意図を反映していません。