🚀 CSM 1B (Safetensors)
このモデルは、元のバージョン からさまざまなSafetensors形式に変換されています。また、ダウンロード数も追跡しています。
2025/03/13 - 1BのCSMバリアントをリリースしました。コードはGitHubで入手できます: SesameAILabs/csm。
CSM (Conversational Speech Model) は、Sesame が開発した音声生成モデルで、テキストと音声入力からRVQオーディオコードを生成します。モデルアーキテクチャは、Llama をバックボーンとして使用し、Mimi オーディオコードを生成する小型のオーディオデコーダーを備えています。
CSMのファインチューニングされたバリアントは、ブログ記事 で紹介されている インタラクティブボイスデモ を駆動しています。
また、音声生成のテスト用にホストされた HuggingFaceスペース も利用できます。
🚀 クイックスタート
このセクションでは、CSM 1Bモデルの使用をすぐに開始するための手順を説明します。
📦 インストール
リポジトリをセットアップするには、以下のコマンドを実行します。
python -m venv .venv
source .venv/bin/activate
curl -s -L https://raw.githubusercontent.com/SesameAILabs/csm/refs/heads/main/requirements.txt | pip install -r /dev/stdin
huggingface-cli login
💻 使用例
基本的な使用法
文を生成するには、以下のコードを使用します。
from generator import load_csm_1b
import torchaudio
generator = load_csm_1b(device="cuda")
audio = generator.generate(
text="Hello from Sesame.",
speaker=0,
context=[],
max_audio_length_ms=10_000,
)
torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)
高度な使用法
CSMは、コンテキストを与えると最適な音質で音声を生成します。各話者の発話に Segment
を使用してモデルにコンテキストを与えることができます。
speakers = [0, 1, 0, 0]
transcripts = [
"Hey how are you doing.",
"Pretty good, pretty good.",
"I'm great.",
"So happy to be speaking to you.",
]
audio_paths = [
"utterance_0.wav",
"utterance_1.wav",
"utterance_2.wav",
"utterance_3.wav",
]
def load_audio(audio_path):
audio_tensor, sample_rate = torchaudio.load(audio_path)
audio_tensor = torchaudio.functional.resample(
audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
)
return audio_tensor
segments = [
Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
text="Me too, this is some cool stuff huh?",
speaker=1,
context=segments,
max_audio_length_ms=10_000,
)
torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)
📚 ドキュメント
FAQ
このモデルには特定の声は付属していますか?
ここでオープンソース化されているモデルは基本的な生成モデルです。さまざまな声を生成することができますが、特定の声でファインチューニングされていません。
このモデルと会話することはできますか?
CSMは音声生成モデルとして訓練されており、汎用的なマルチモーダルLLMではありません。テキストを生成することはできません。テキスト生成には別のLLMを使用することをおすすめします。
他の言語をサポートしていますか?
訓練データに他言語のデータが混入しているため、このモデルは非英語の言語にもある程度の対応能力がありますが、性能は高くない可能性があります。
誤用と悪用 ⚠️
このプロジェクトは、研究および教育目的で高品質の音声生成モデルを提供しています。責任ある倫理的な使用を奨励する一方で、以下の行為を 明示的に禁止 しています。
- なりすましや詐欺:このモデルを使用して、本人の明示的な同意なしに実在の人物を模倣する音声を生成しないでください。
- 誤情報や欺瞞:このモデルを使用して、偽のニュースや詐欺的な電話など、欺瞞的または誤解を招く内容を作成しないでください。
- 違法または有害な活動:このモデルを違法、有害、または悪意のある目的に使用しないでください。
このモデルを使用することで、すべての適用される法律および倫理ガイドラインに準拠することに同意するものとします。私たちは誤用について 責任を負いません が、この技術の非倫理的な利用を強く非難しています。
作者
Johan Schalkwyk, Ankit Kumar, Dan Lyth, Sefik Emre Eskimez, Zack Hodari, Cinjon Resnick, Ramon Sanabria, Raven Jiang、およびSesameチーム
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で提供されています。