オープンソースCSM - 1b - safetensors - quants音声モデル、テキストやオーディオ入力でRVQオーディオエンコーディング生成をサポート

ホーム

Csm 1b Safetensors Quants

lunahrによって開発

CSM（対話音声モデル）はSesameが開発した10億パラメータの音声生成モデルで、テキストと音声入力からRVQ音声エンコーディングを生成可能です。

音声合成

Transformers

英語オープンソースライセンス:Apache-2.0 #対話音声生成 #マルチスピーカー対応 #コンテキスト認識合成

ダウンロード数 37

リリース時間 : 3/15/2025

モデル概要

Llamaバックボーンネットワークと軽量音声デコーダーを基盤とした音声生成モデルで、テキスト読み上げ機能をサポートし、Mimi音声エンコーディングを出力します。

モデル特徴

マルチスピーカー対応

speakerパラメータで異なる話者の声色を制御可能

コンテキスト認識生成

コンテキスト音声フラグメントを通じて生成効果を強化

セーフティテンソル形式

複数のセーフティテンソル形式をサポートしダウンロード数を統計

モデル能力

テキスト読み上げ

マルチスピーカー音声生成

コンテキスト認識音声合成

使用事例

音声インタラクション

対話システム音声出力

LLMと組み合わせて完全な対話システムを構築

インタラクティブ音声デモはブログで公開済み

コンテンツ制作

音声コンテンツ生成

ポッドキャスト、オーディオブック等の音声コンテンツを自動生成

🚀 CSM 1B (Safetensors)

CSM 1B (Safetensors) は、元のバージョンからさまざまなSafetensors形式に変換されたモデルです。また、ダウンロード数も追跡しています。

2025/03/13 - 1BのCSMバリアントをリリースしました。コードはGitHubで入手可能です: SesameAILabs/csm。

CSM (Conversational Speech Model) は、Sesame が開発した音声生成モデルで、テキストと音声入力からRVQオーディオコードを生成します。このモデルのアーキテクチャは、Llama をバックボーンに使用し、Mimi オーディオコードを生成する小規模なオーディオデコーダを備えています。

CSMのファインチューニングされたバリアントは、ブログ記事で紹介されているインタラクティブな音声デモのパワーを提供しています。

また、音声生成のテスト用にホストされた HuggingFaceスペースも利用できます。

🚀 クイックスタート

📦 インストール

リポジトリをセットアップします。

python -m venv .venv
source .venv/bin/activate
curl -s -L https://raw.githubusercontent.com/SesameAILabs/csm/refs/heads/main/requirements.txt | pip install -r /dev/stdin

# You will need access to sesame/csm-1b and meta-llama/Llama-3.2-1B
huggingface-cli login

💻 使用例

基本的な使用法

文章を生成します。

from generator import load_csm_1b
import torchaudio

generator = load_csm_1b(device="cuda")

audio = generator.generate(
    text="Hello from Sesame.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

高度な使用法

CSMはコンテキストを与えると最適な音声を生成します。各話者の発話に Segment を使用してコンテキストを与えることができます。

speakers = [0, 1, 0, 0]
transcripts = [
    "Hey how are you doing.",
    "Pretty good, pretty good.",
    "I'm great.",
    "So happy to be speaking to you.",
]
audio_paths = [
    "utterance_0.wav",
    "utterance_1.wav",
    "utterance_2.wav",
    "utterance_3.wav",
]

def load_audio(audio_path):
    audio_tensor, sample_rate = torchaudio.load(audio_path)
    audio_tensor = torchaudio.functional.resample(
        audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
    )
    return audio_tensor

segments = [
    Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
    for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
    text="Me too, this is some cool stuff huh?",
    speaker=1,
    context=segments,
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

📚 ドキュメント

FAQ

このモデルには特定の声は付属していますか？ ここでオープンソース化されているモデルは基本的な生成モデルです。さまざまな声を生成することができますが、特定の声でファインチューニングされていません。

このモデルと会話することはできますか？ CSMは音声生成モデルとして学習されており、汎用的なマルチモーダルLLMではありません。テキストを生成することはできません。テキスト生成には別のLLMを使用することをおすすめします。

他の言語にも対応していますか？ 学習データに他言語のデータが混入しているため、非英語の言語にもある程度の対応能力がありますが、性能は高くない可能性があります。

誤用と悪用 ⚠️

このプロジェクトは、研究および教育目的で高品質の音声生成モデルを提供しています。責任ある倫理的な使用を推奨する一方で、以下の行為を 明示的に禁止 します。

なりすましまたは詐欺：明示的な同意を得ずに、実在の人物を模倣した音声を生成しないでください。
誤情報または欺瞞：このモデルを使って、偽のニュースや詐欺的な電話など、欺瞞的または誤解を招くコンテンツを作成しないでください。
違法または有害な活動：このモデルを、違法、有害、または悪意のある目的に使用しないでください。

このモデルを使用することで、すべての適用可能な法律および倫理ガイドラインに準拠することに同意するものとします。誤用については 一切の責任を負いません が、この技術の非倫理的な使用を強く非難します。

著者

Johan Schalkwyk, Ankit Kumar, Dan Lyth, Sefik Emre Eskimez, Zack Hodari, Cinjon Resnick, Ramon Sanabria, Raven Jiang, およびSesameチーム

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご