csm - 1bオープンソース音声生成モデル - テキストと音声入力から無料でオーディオコーディングを生成

ホーム

Csm 1b

chutesaiによって開発

CSM（対話音声モデル）はSesameが開発した10億パラメータの音声生成モデルで、テキストと音声入力からRVQ音声エンコーディングを生成できます。

音声合成

Transformers

英語オープンソースライセンス:Apache-2.0 #マルチスピーカー音声生成 #コンテキスト認識TTS #Llamaアーキテクチャ音声モデル

ダウンロード数 814

リリース時間 : 3/18/2025

モデル概要

CSMはLlamaバックボーンネットワークと軽量音声デコーダーを基盤とした音声生成モデルで、テキストと音声入力からMimi音声エンコーディングを生成し、テキスト読み上げタスクに適しています。

モデル特徴

マルチボイス生成

基本生成モデルは複数の音色を生成可能で、コンテキストヒントによる音色表現の最適化をサポート

コンテキスト認識

対話コンテキスト（テキスト+音声）を提供することで生成品質を大幅に向上

効率的なアーキテクチャ

Llamaバックボーンネットワークと軽量デコーダーを採用し、性能と効率のバランスを実現

モデル能力

テキスト読み上げ

マルチボイス音声生成

コンテキスト認識音声合成

使用事例

音声インタラクション

対話型音声アシスタント

LLMで生成したテキストを自然な音声に変換

より自然な音声インタラクション体験を実現

コンテンツ制作

音声コンテンツ生成

テキストコンテンツを自動的に音声に変換

オーディオブックやポッドキャストなどの音声コンテンツを効率的に生成

🚀 CSM 1B (Safetensors)

CSM 1B (Safetensors)は、Sesameによる音声生成モデルです。テキストと音声入力からRVQオーディオコードを生成し、Llamaバックボーンと小型のオーディオデコーダを採用しています。

🚀 クイックスタート

このモデルを使用するには、まずリポジトリをセットアップする必要があります。以下の手順に従ってください。

git clone git@github.com:SesameAILabs/csm.git
cd csm
python3.10 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

✨ 主な機能

Safetensors形式で提供され、更新された設定とコードがあります。
元のバージョンからSafetensors FP16形式に変換されています。
ダウンロードを追跡します。
インタラクティブなボイスデモを提供します。
HuggingFaceスペースで音声生成をテストできます。

📦 インストール

リポジトリのセットアップは以下のコマンドで行えます。

git clone git@github.com:SesameAILabs/csm.git
cd csm
python3.10 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

💻 使用例

基本的な使用法

文章を生成するには、以下のコードを使用します。

from generator import load_csm_1b
import torchaudio

generator = load_csm_1b(device="cuda")
audio = generator.generate(
    text="Hello from Sesame.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

高度な使用法

CSMはコンテキストを提供すると最適な音質です。以下のコードは、コンテキストを使用して音声を生成する例です。

speakers = [0, 1, 0, 0]
transcripts = [
    "Hey how are you doing.",
    "Pretty good, pretty good.",
    "I'm great.",
    "So happy to be speaking to you.",
]
audio_paths = [
    "utterance_0.wav",
    "utterance_1.wav",
    "utterance_2.wav",
    "utterance_3.wav",
]

def load_audio(audio_path):
    audio_tensor, sample_rate = torchaudio.load(audio_path)
    audio_tensor = torchaudio.functional.resample(
        audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
    )
    return audio_tensor

segments = [
    Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
    for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
    text="Me too, this is some cool stuff huh?",
    speaker=1,
    context=segments,
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)