ACE-Step-v1-3.5Bオープンソーステキスト→オーディオモデル - 高品質な音楽や効果音を無料で生成

ホーム

Ace Gguf

calcuisによって開発

ACE-Step-v1-3.5Bはテキストからオーディオへの変換モデルで、高品質なオーディオ生成をサポートし、音楽やサウンドエフェクトの作成に適しています。

音声生成オープンソースライセンス:Apache-2.0 #テキストからオーディオ #GGUF量子化 #軽量展開

ダウンロード数 1,332

リリース時間 : 5/9/2025

モデル概要

このモデルはACE-Stepアーキテクチャに基づいており、テキスト記述をオーディオに変換することに特化しており、特に音楽や特定のスタイルのオーディオコンテンツの生成に適しています。

モデル特徴

GGUF量子化

モデルはGGUF量子化処理されており、safetensorsチェックポイントよりも読み込み速度が速く、最後の瞬間のボトルネック問題を回避します。

すぐに使える

完全なGGUFキット（モデル+エンコーダー+VAE）を提供しており、追加の設定なしで使用できます。

高品質なオーディオ生成

テキスト記述に基づいて高品質な音楽やサウンドエフェクトを生成でき、さまざまなスタイルをサポートします。

モデル能力

テキストからオーディオ

音楽生成

サウンドエフェクト生成

使用事例

音楽制作

女性ボーカルポップエレクトロニックミュージック

テキスト記述に基づいて特定のスタイルの音楽を生成します。例えば、ミーアキャットスタイルやピンクピッグスタイルなど。

高品質なFLAC形式のオーディオファイルを生成します。

サウンドエフェクト

環境音

テキスト記述に基づいて環境音を生成します。例えば、自然の音や都市の騒音など。

🚀 gguf量子化ace - step - v1 - 3.5b

このプロジェクトは、テキストから音声への変換を行うモデルで、ACE - Stepベースのモデルをgguf形式で量子化したものです。モデル、エンコーダ、VAEのセットがすぐに使用できます。

📄 ライセンス

このプロジェクトはApache - 2.0ライセンスの下で提供されています。

📦 インストール

セットアップ（一度だけ）

ace - step を ./ComfyUI/models/diffusion_models にドラッグします。
umt5 - base を ./ComfyUI/models/text_encoders にドラッグします。
pig を ./ComfyUI/models/vae にドラッグします。

スクリーンショット

💻 使用例

ワークフロー

以下のJSONまたはデモ音声をブラウザにドラッグしてワークフローを実行します。

プロンプト	音声サンプル
女性がポップミュージックを歌い、電子ビートのフェネックコア `可愛いフェネックガール` `大きなフェネックの耳` `大きなふわふわした尻尾` `長い金色の波状の髪` `大きな青い目` `私はフェネックガールが好き`	🎵 ace - step
女性がポップミュージックを歌い、電子ビートのフェネックコア `可愛いピンクの豚` `大きなピンクの耳` `大きなふわふわした尻尾` `長い可愛い波状の髪` `大きな青い目` `私はピンクの豚が好き`	🎵 ace - audio

🔧 技術詳細

レビュー

注意: 正常に動作させるためにいくつかの重要なテンソルを（f32状態で）保持する必要があるため、ファイルサイズの削減はそれほど大きくない場合があります。しかし、一般的にsafetensorsチェックポイントよりも高速に読み込まれます（最後のボトルネック問題がない）。
umt5 - baseトークナイザーのロジックを再構築し、正常に適用されました。umt5 - baseエンコーダをサポートするには、ノードを最新バージョンにアップグレードしてください。そのため、safetensorsチェックポイントは不要になりました（ここでは削除されています。まだ必要な場合は、[comfyui - org](https://huggingface.co/Comfy - Org/ACE - Step_ComfyUI_repackaged/tree/main/all_in_one) から取得できます）。
より多くの umt5 - base エンコーダは [こちら](https://huggingface.co/chatpig/umt5 - base - encoder - gguf/tree/main) で取得できます。

🚀 gguf量子化t5_baseエンコーダ付きfp8/16/32スケールのstable - audio - open - 1.0

このモデルは、stabilityaiのstable - audio - open - 1.0をベースにした別のモデルで、強力で軽量です。

📦 インストール

セットアップ（一度だけ）

t5 - base を ./ComfyUI/models/text_encoders にドラッグします。
safetensors を ./ComfyUI/models/checkpoints にドラッグします。
pig を ./ComfyUI/models/vae にドラッグします。

![スクリーンショット](https://raw.githubusercontent.com/calcuis/comfy/master/sd - audio.png)

💻 使用例

プロンプト	音声サンプル
天国の教会、電子ダンスミュージック	🎵 stable - audio

🔧 技術詳細

レビュー

注意: このリポジトリのsafetensorsチェックポイントは抽出バージョンで、モデルと条件切り替えテンソルのみを含んでいます（非常に軽量）。clipとVAEは含まれていないため、別途clip（テキストエンコーダ）とVAEを使用する必要があります。
モデルとVAEが埋め込まれたfp8/16/32スケールのチェックポイントは [こちら](https://huggingface.co/convertor/sa1 - fp8/tree/main) で取得できます。
より多くの t5 - base エンコーダは [こちら](https://huggingface.co/chatpig/t5 - base - encoder - gguf/tree/main) で取得できます。