オープンソースのCSM - 1b音声生成モデル - テキストとオーディオ入力によりRVQオーディオコーディングを生成する

ホーム

Csm 1b Safetensors Fp16

lunahrによって開発

CSM（対話音声モデル）はSesameが開発した10億パラメータの音声生成モデルで、テキストと音声入力からRVQオーディオエンコーディングを生成できます。

音声合成

Transformers

英語オープンソースライセンス:Apache-2.0 #対話音声生成 #複数話者対応 #コンテキスト認識合成

ダウンロード数 79

リリース時間 : 4/25/2025

モデル概要

このモデルはLlamaバックボーンネットワークと軽量オーディオデコーダを採用し、Mimiオーディオエンコーディングを生成可能で、テキスト読み上げタスクに適しています。

モデル特徴

複数話者対応

モデルは異なる話者IDを指定可能で、異なる音色の音声を生成できます

コンテキスト認識

対話の文脈を利用してより自然な音声出力を生成可能

効率的なアーキテクチャ

Llamaバックボーンネットワークと軽量デコーダに基づき、性能と効率をバランス

モデル能力

テキスト読み上げ

複数話者音声生成

コンテキスト認識音声合成

使用事例

インタラクティブ音声アプリケーション

音声アシスタント

仮想アシスタントに自然な音声出力を提供

Sesameのインタラクティブ音声デモで展示

対話システム

一貫性のある対話音声を生成

文脈に応じて音声スタイルを調整可能

🚀 CSM 1B (Safetensors)

このモデルは、元のバージョンからさまざまなSafetensors形式に変換されています。また、ダウンロード数も追跡しています。

2025/03/13 - 1BのCSMバリアントをリリースしました。コードはGitHubで入手できます: SesameAILabs/csm。

CSM (Conversational Speech Model) は、Sesame が開発した音声生成モデルで、テキストと音声入力からRVQオーディオコードを生成します。モデルアーキテクチャは、Llama をバックボーンとして使用し、Mimi オーディオコードを生成する小型のオーディオデコーダーを備えています。

CSMのファインチューニングされたバリアントは、ブログ記事で紹介されているインタラクティブボイスデモを駆動しています。

また、音声生成のテスト用にホストされた HuggingFaceスペースも利用できます。

🚀 クイックスタート

このセクションでは、CSM 1Bモデルの使用をすぐに開始するための手順を説明します。

📦 インストール

リポジトリをセットアップするには、以下のコマンドを実行します。

python -m venv .venv
source .venv/bin/activate
curl -s -L https://raw.githubusercontent.com/SesameAILabs/csm/refs/heads/main/requirements.txt | pip install -r /dev/stdin

# You will need access to sesame/csm-1b and meta-llama/Llama-3.2-1B
huggingface-cli login

💻 使用例

基本的な使用法

文を生成するには、以下のコードを使用します。

from generator import load_csm_1b
import torchaudio

generator = load_csm_1b(device="cuda")

audio = generator.generate(
    text="Hello from Sesame.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

高度な使用法

CSMは、コンテキストを与えると最適な音質で音声を生成します。各話者の発話に Segment を使用してモデルにコンテキストを与えることができます。

speakers = [0, 1, 0, 0]
transcripts = [
    "Hey how are you doing.",
    "Pretty good, pretty good.",
    "I'm great.",
    "So happy to be speaking to you.",
]
audio_paths = [
    "utterance_0.wav",
    "utterance_1.wav",
    "utterance_2.wav",
    "utterance_3.wav",
]

def load_audio(audio_path):
    audio_tensor, sample_rate = torchaudio.load(audio_path)
    audio_tensor = torchaudio.functional.resample(
        audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
    )
    return audio_tensor

segments = [
    Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
    for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
    text="Me too, this is some cool stuff huh?",
    speaker=1,
    context=segments,
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

📚 ドキュメント

FAQ

このモデルには特定の声は付属していますか？ ここでオープンソース化されているモデルは基本的な生成モデルです。さまざまな声を生成することができますが、特定の声でファインチューニングされていません。

このモデルと会話することはできますか？ CSMは音声生成モデルとして訓練されており、汎用的なマルチモーダルLLMではありません。テキストを生成することはできません。テキスト生成には別のLLMを使用することをおすすめします。

他の言語をサポートしていますか？ 訓練データに他言語のデータが混入しているため、このモデルは非英語の言語にもある程度の対応能力がありますが、性能は高くない可能性があります。

誤用と悪用 ⚠️

このプロジェクトは、研究および教育目的で高品質の音声生成モデルを提供しています。責任ある倫理的な使用を奨励する一方で、以下の行為を 明示的に禁止 しています。

なりすましや詐欺：このモデルを使用して、本人の明示的な同意なしに実在の人物を模倣する音声を生成しないでください。
誤情報や欺瞞：このモデルを使用して、偽のニュースや詐欺的な電話など、欺瞞的または誤解を招く内容を作成しないでください。
違法または有害な活動：このモデルを違法、有害、または悪意のある目的に使用しないでください。

このモデルを使用することで、すべての適用される法律および倫理ガイドラインに準拠することに同意するものとします。私たちは誤用について 責任を負いません が、この技術の非倫理的な利用を強く非難しています。

作者 Johan Schalkwyk, Ankit Kumar, Dan Lyth, Sefik Emre Eskimez, Zack Hodari, Cinjon Resnick, Ramon Sanabria, Raven Jiang、およびSesameチーム

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご