🚀 🎵 ACE-Step (Rap Machine) 用中国ラップLoRA
これはハイブリッドなラップボイスモデルです。我々は中国のラップ/ヒップホップデータセットを厳選してトレーニングに使用し、データのクリーニングと再キャプション付けを行いました。その結果、以下の改善が見られます。
- 中国語の発音精度が向上
- ヒップホップやエレクトロニックジャンルのスタイル忠実度が向上
- ヒップホップのボーカル表現の多様性が増す
音声サンプルはこちらを参照:https://ace-step.github.io/#RapMachine
🚀 クイックスタート
利用方法
- より高品質な中国語の曲を生成する
- 優れたヒップホップトラックを作成する
- 他のジャンルとブレンドして:
- より良いボーカル品質と詳細を持つ音楽を制作する
- 実験的な味付け(例:アンダーグラウンド、ストリートカルチャー)を加える
- 以下のパラメータを使用して微調整する:
ボーカルコントロール
vocal_timbre
- 例:明るい、暗い、暖かい、冷たい、息の多い、鼻声、グリッティーな、滑らかな、ハスキーな、金属的な、ささやき声、響きのある、空気感のある、スモーキーな、セクシーな、軽い、澄んだ、高音の、かすれ声、力強い、エーテリアルな、笛のような、空洞な、ベルベットのような、甲高い、かすれた、メロディアスな、薄い、厚い、リーディーな、銀色の、鼻声の。
- 固有のボーカル品質を表す。
techniques
(リスト)
- ラップスタイル:
mumble rap
, chopper rap
, melodic rap
, lyrical rap
, trap flow
, double-time rap
- ボーカルエフェクト:
auto-tune
, reverb
, delay
, distortion
- デリバリー:
whispered
, shouted
, spoken word
, narration
, singing
- その他:
ad-libs
, call-and-response
, harmonized
✨ 主な機能
非中国語圏のコミュニティにとって中国ラップのLoRAはニッチなように見えるかもしれませんが、我々はこのようなプロジェクトを通じて、音楽生成の基盤モデルであるACE-stepが無限の可能性を秘めていることを常に実証しています。これはある言語の発音を改善するだけでなく、新しいスタイルを生み出します。
人類が共通して音楽を愛でることは貴重な資産です。抽象的なレゴブロックのように、これらの要素は最終的により有機的な形で組み合わされるでしょう。我々のオープンソース貢献が音楽史の進化を促進することを願っています。
📚 ドキュメント
モデルの説明
ACE-Stepは、音楽生成のための新しいオープンソースの基盤モデルです。全体的なアーキテクチャ設計により、既存のアプローチの主要な制限を克服しています。拡散ベースの生成をSanaのDeep Compression AutoEncoder (DCAE) と軽量の線形トランスフォーマーと統合することで、生成速度、音楽の一貫性、および制御性において最先端の性能を達成しています。
主要な特徴:
- LLMベースのベースラインより15倍高速(A100で4分の音楽を20秒で生成)
- メロディ、ハーモニー、リズムにわたる優れた音楽の一貫性
- 全曲生成、時間制御、自然言語記述の受け付け
用途
直接利用
ACE-Stepは以下の用途に使用できます。
- テキスト記述からオリジナルの音楽を生成する
- 音楽のリミックスとスタイル転送
- 歌詞の編集
下流利用
このモデルは以下の基盤として機能します。
- ボイスクローニングアプリケーション
- 専門的な音楽生成(ラップ、ジャズなど)
- 音楽制作ツール
- クリエイティブAIアシスタント
範囲外の利用
このモデルは以下の用途には使用しないでください。
- 許可なく著作権のあるコンテンツを生成する
- 有害または不快なコンテンツを作成する
- AI生成の音楽を人間が作成したものと誤認させる
始め方
詳細はこちらを参照:https://github.com/ace-step/ACE-Step
ハードウェアパフォーマンス
デバイス |
27ステップ |
60ステップ |
NVIDIA A100 |
27.27x |
12.27x |
RTX 4090 |
34.48x |
15.63x |
RTX 3090 |
12.76x |
6.48x |
M2 Max |
2.27x |
1.03x |
表示されているのはRTF(リアルタイム係数)です - 値が高いほど生成速度が速いことを示します
制限事項
- 言語によってパフォーマンスが異なります(上位10言語が最も良い結果を出します)
- 長時間の生成(5分を超える)では構造的な一貫性が失われる可能性があります
- レアな楽器は完全にレンダリングされない場合があります
- 出力の不一致:ランダムシードと入力時間に非常に敏感で、「ガチャスタイル」の様々な結果につながります。
- スタイル固有の弱点:特定のジャンル(例:中国ラップ/zh_rap)では性能が低く、スタイルの忠実度と音楽性の上限があります
- 連続性のアーティファクト:再描画/拡張操作で不自然な遷移が発生する
- ボーカル品質:微妙なニュアンスに欠ける粗いボーカル合成
- 制御粒度:より細かい音楽パラメータ制御が必要
倫理的な考慮事項
ユーザーは以下のことを行う必要があります。
- 生成された作品のオリジナリティを検証する
- AIの関与を明らかにする
- 文化的要素と著作権を尊重する
- 有害なコンテンツの生成を避ける
モデルの詳細
開発者: ACE StudioとStepFun
モデルタイプ: トランスフォーマー条件付きの拡散ベースの音楽生成
ライセンス: Apache 2.0
リソース:
引用
@misc{gong2025acestep,
title={ACE-Step: A Step Towards Music Generation Foundation Model},
author={Junmin Gong, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo},
howpublished={\url{https://github.com/ace-step/ACE-Step}},
year={2025},
note={GitHub repository}
}
謝辞
このプロジェクトはACE StudioとStepFunによって共同主導されています。