🚀 CSM 1B (Safetensors)
CSM 1B (Safetensors)は、Sesameによる音声生成モデルです。テキストと音声入力からRVQオーディオコードを生成し、Llamaバックボーンと小型のオーディオデコーダを採用しています。
🚀 クイックスタート
このモデルを使用するには、まずリポジトリをセットアップする必要があります。以下の手順に従ってください。
git clone git@github.com:SesameAILabs/csm.git
cd csm
python3.10 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
✨ 主な機能
📦 インストール
リポジトリのセットアップは以下のコマンドで行えます。
git clone git@github.com:SesameAILabs/csm.git
cd csm
python3.10 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
💻 使用例
基本的な使用法
文章を生成するには、以下のコードを使用します。
from generator import load_csm_1b
import torchaudio
generator = load_csm_1b(device="cuda")
audio = generator.generate(
text="Hello from Sesame.",
speaker=0,
context=[],
max_audio_length_ms=10_000,
)
torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)
高度な使用法
CSMはコンテキストを提供すると最適な音質です。以下のコードは、コンテキストを使用して音声を生成する例です。
speakers = [0, 1, 0, 0]
transcripts = [
"Hey how are you doing.",
"Pretty good, pretty good.",
"I'm great.",
"So happy to be speaking to you.",
]
audio_paths = [
"utterance_0.wav",
"utterance_1.wav",
"utterance_2.wav",
"utterance_3.wav",
]
def load_audio(audio_path):
audio_tensor, sample_rate = torchaudio.load(audio_path)
audio_tensor = torchaudio.functional.resample(
audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
)
return audio_tensor
segments = [
Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
text="Me too, this is some cool stuff huh?",
speaker=1,
context=segments,
max_audio_length_ms=10_000,
)
torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)
📚 ドキュメント
FAQ
このモデルには特定のボイスが付属していますか?
ここでオープンソース化されているモデルは基本的な生成モデルです。様々なボイスを生成することができますが、特定のボイスでファインチューニングされていません。
このモデルと会話することはできますか?
CSMは音声生成モデルとして学習されており、汎用的なマルチモーダルLLMではありません。テキストを生成することはできません。テキスト生成には別のLLMを使用することをおすすめします。
他の言語に対応していますか?
学習データに他言語のデータが混入しているため、非英語の言語にもある程度の対応がありますが、性能は高くない可能性があります。
誤用と悪用について ⚠️
このプロジェクトは、研究および教育目的で高品質の音声生成モデルを提供しています。責任ある倫理的な使用を奨励する一方で、以下の使用は明示的に禁止しています。
- なりすましや詐欺:本人の明示的な同意なしに、実在する人物を模倣した音声を生成しないでください。
- 誤情報や欺瞞:このモデルを使って、偽のニュースや詐欺的な電話など、欺瞞的または誤解を招くコンテンツを作成しないでください。
- 違法または有害な活動:このモデルを違法、有害、または悪意のある目的に使用しないでください。
このモデルを使用することにより、すべての適用可能な法律および倫理ガイドラインに準拠することに同意するものとします。私たちは誤用について責任を負いません。また、この技術の非倫理的な利用を強く非難します。
作者
Johan Schalkwyk, Ankit Kumar, Dan Lyth, Sefik Emre Eskimez, Zack Hodari, Cinjon Resnick, Ramon Sanabria, Raven Jiang、およびSesameチーム
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で提供されています。