csm-expressiva-1bオープンソース感情音声モデル - 無料でささやきスタイルの音声合成を実現

Csm Expressiva 1b

senstellaによって開発

CSM-1b対話音声モデルをファインチューニングした感情音声モデルで、ささやきスタイルの音声合成をサポート

音声合成英語#ささやきスタイルTTS #LoRAファインチューニング最適化 #軽量化トレーニング

ダウンロード数 105

リリース時間 : 4/10/2025

モデル概要

本モデルはSFTファインチューニングによりCSMベースモデルを調整し、Expressoデータセットのささやきスタイル音声データを使用して、csm-mlxコードベースのLoRAファインチューニング効果を検証しました。特定の感情特徴を持つ音声を生成できます。

モデル特徴

ささやきスタイル音声合成

特定のささやきスタイルを持つ感情音声を生成可能

LoRAファインチューニング最適化

低ランク適応(LoRA)技術を使用した効率的なファインチューニングにより、ベースモデルの能力を維持しながら新機能を追加

軽量トレーニング

16GBメモリのMacBook Airでトレーニング可能で、リソースが限られた環境に適している

安定性向上

ファインチューニングによりベースモデルの典型的な故障（無限の無音など）を大幅に減少

モデル能力

テキストから音声へ

感情音声合成

ささやきスタイル生成

使用事例

音声合成

感情的音声アシスタント

音声アシスタントにささやきなどの感情的音声出力機能を追加

自然な感情音声を生成可能

音声コンテンツ制作

オーディオブック、ポッドキャストなどのコンテンツ制作に多様な音声スタイルを提供

特定スタイルの音声コンテンツを生成可能

🚀 csm-experssiva

このプロジェクトは、CSM(Conversational Speech Model) を Expresso の4番目のささやき声で実験的にSFTファインチューニングしたものです。csm-mlx リポジトリのSFT LoRAチューニングがうまく機能するかを素早く確認するために作成されました。

🚀 クイックスタート

このモデルはMacBook Air M2 16GBで重いスワップを使用してトレーニングされ、0:43:47 の時間がかかりました。

✨ 主な機能

小規模なSFTにより、CSMベースモデルの失敗ケース（無限の沈黙など）がある程度軽減されます。
- 時々まだ失敗することがありますが、SFTチューニング前よりもはるかに少なくなります。
小規模なSFTでも、声をきれいに再現することができます。
量子化すると、はるかに安定するようです！（これはこのPR で最初に報告されました！）

📦 インストール

本READMEにはインストール手順に関する具体的な内容がありませんので、このセクションは省略されました。

💻 使用例

基本的な使用法

from mlx_lm.sample_utils import make_sampler
from huggingface_hub import hf_hub_download
from csm_mlx import CSM, csm_1b, generate

import audiofile
import numpy as np

csm = CSM(csm_1b())
weight = hf_hub_download(repo_id="senstella/csm-expressiva-1b", filename="mlx-ckpt.safetensors") # Here's the difference!
csm.load_weights(weight)

audio = generate(
    csm,
    text="Hello from Sesame.",
    speaker=4, # And this is another difference - please use 4 regardless of where you're inferencing!
    context=[],
    max_audio_length_ms=20_000,
    sampler=make_sampler(temp=0.8, top_k=50)
)

audiofile.write("./audio.wav", np.asarray(audio), 24000)

🔧 技術詳細

ハイパーパラメータ

ハイパーパラメータ	値
`batch_size`	1
`epoch`	1
`first_codebook_weight_multiplier`	1.1
`learning-rate`	1e-4
`weight-decay`	1e-4
`optimizer`	adamw
`lora-rank`	8
`lora-alpha`	16
`target-modules`	attn, codebook0_head, projection

今後の計画

csm-mlx でKTOを実装し、そのアプローチを使ってモデルの失敗ケースをさらに軽減する予定です。

📄 ライセンス

このモデルはExpressoデータセットからトレーニングされているため、ライセンスはExpressoデータセットの cc-by-nc-4.0 に従います。

注意事項

⚠️ 重要提示

推論時には speaker_id を4に設定してください。これはモデルがトレーニングされた設定です。

⚠️ 重要提示

このモデルは、CSM - 1bモデルがささやきスタイルの声の特徴を効果的に圧縮および再構築する緊急能力を示すかどうかを調査するためにファインチューニングされました。これは、従来のTTSモデルでは通常見られないものです。また、csm - mlxのトレーニングセットアップとその損失関数の正しさの予備的な検証としても機能します。このモデルの不適切な使用を私は決して支持または奨励しません。意図しない関連付けや解釈は、このモデルの意図を反映していません。