🚀 🎵 適用於ACE-Step(說唱機器)的中文說唱LoRA
這是一個混合說唱語音模型。我們精心策劃了中文說唱/嘻哈數據集用於訓練,並進行了嚴格的數據清理和重新標註。結果表明:
- 提高了中文發音的準確性
- 增強了對嘻哈和電子音樂風格的遵循度
- 增加了嘻哈聲樂表達的多樣性
音頻示例請見:https://ace-step.github.io/#RapMachine
🚀 快速開始
模型簡介
ACE-Step是一個新穎的開源音樂生成基礎模型,通過整體架構設計克服了現有方法的關鍵限制。它將基於擴散的生成與Sana的深度壓縮自動編碼器(DCAE)和輕量級線性變壓器相結合,在生成速度、音樂連貫性和可控性方面達到了最先進的性能。
使用指南
- 生成更高質量的中文歌曲
- 創建更優質的嘻哈曲目
- 與其他音樂類型融合,以:
- 製作出具有更好人聲質量和細節的音樂
- 添加實驗性風格(如地下音樂、街頭文化風格)
- 使用以下參數進行微調:
人聲控制
vocal_timbre
- 示例:明亮、暗沉、溫暖、冰冷、氣聲、鼻音、粗糙、順滑、沙啞、金屬感、輕柔、共鳴、空靈、煙霧感、性感、輕盈、清晰、高音、沙啞、有力、縹緲、長笛般、空洞、天鵝絨般、尖銳、嘶啞、圓潤、單薄、厚實、蘆葦般、銀鈴般、鼻音重。
- 描述了人聲的固有特質。
techniques
(列表)
- 說唱風格:
含糊說唱
、超快說唱
、旋律說唱
、抒情說唱
、陷阱節奏說唱
、雙倍速度說唱
- 人聲特效:
自動調音
、混響
、延遲
、失真
- 表達方式:
低語
、呼喊
、朗誦
、旁白
、歌唱
- 其他:
即興說唱
、呼應
、和聲
社區說明
雖然中文說唱LoRA對於非中文社區來說可能看起來很小眾,但我們通過此類項目不斷證明,作為音樂生成基礎模型的ACE-step擁有無限潛力。它不僅能提高一種語言的發音,還能催生新的音樂風格。
人類對音樂的普遍欣賞是一種寶貴的財富。就像抽象的樂高積木一樣,這些元素最終會以更自然的方式組合在一起。希望我們的開源貢獻能推動音樂歷史的發展。
直接使用
ACE-Step可用於:
- 根據文本描述生成原創音樂
- 音樂混音和風格轉換
- 編輯歌曲歌詞
下游使用
該模型可作為以下應用的基礎:
- 語音克隆應用
- 專業音樂生成(說唱、爵士等)
- 音樂製作工具
- 創意AI助手
不適用場景
該模型不應用於:
- 未經授權生成受版權保護的內容
- 創建有害或冒犯性的內容
- 將AI生成的音樂冒充為人類創作的音樂
如何開始使用
詳情請見:https://github.com/ace-step/ACE-Step
硬件性能
設備 |
27步 |
60步 |
NVIDIA A100 |
27.27倍 |
12.27倍 |
RTX 4090 |
34.48倍 |
15.63倍 |
RTX 3090 |
12.76倍 |
6.48倍 |
M2 Max |
2.27倍 |
1.03倍 |
顯示的是即時因子(RTF) - 數值越高表示生成速度越快
侷限性
- 性能因語言而異(前10種語言表現最佳)
- 較長的生成(超過5分鐘)可能會失去結構連貫性
- 罕見樂器可能無法完美呈現
- 輸出不一致:對隨機種子和輸入時長高度敏感,導致結果像“抽卡”一樣多變
- 特定風格的弱點:在某些音樂類型(如中文說唱)上表現不佳,風格遵循度和音樂性有限
- 連續性瑕疵:在重繪/擴展操作中存在不自然的過渡
- 人聲質量:粗糙的人聲合成缺乏細微差別
- 控制粒度:需要更細粒度的音樂參數控制
倫理考量
用戶應:
- 驗證生成作品的原創性
- 披露AI的參與
- 尊重文化元素和版權
- 避免生成有害內容
模型詳情
屬性 |
詳情 |
開發團隊 |
ACE Studio和StepFun |
模型類型 |
基於擴散的音樂生成,帶有變壓器調節 |
許可證 |
Apache 2.0 |
資源鏈接 |
項目頁面 演示空間 GitHub倉庫 |
引用
@misc{gong2025acestep,
title={ACE-Step: A Step Towards Music Generation Foundation Model},
author={Junmin Gong, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo},
howpublished={\url{https://github.com/ace-step/ACE-Step}},
year={2025},
note={GitHub repository}
}
致謝
本項目由ACE Studio和StepFun共同牽頭。