🚀 🎵 适用于ACE-Step(说唱机器)的中文说唱LoRA
这是一个混合说唱语音模型。我们精心策划了中文说唱/嘻哈数据集用于训练,并进行了严格的数据清理和重新标注。结果表明:
- 提高了中文发音的准确性
- 增强了对嘻哈和电子音乐风格的遵循度
- 增加了嘻哈声乐表达的多样性
音频示例请见:https://ace-step.github.io/#RapMachine
🚀 快速开始
模型简介
ACE-Step是一个新颖的开源音乐生成基础模型,通过整体架构设计克服了现有方法的关键限制。它将基于扩散的生成与Sana的深度压缩自动编码器(DCAE)和轻量级线性变压器相结合,在生成速度、音乐连贯性和可控性方面达到了最先进的性能。
使用指南
- 生成更高质量的中文歌曲
- 创建更优质的嘻哈曲目
- 与其他音乐类型融合,以:
- 制作出具有更好人声质量和细节的音乐
- 添加实验性风格(如地下音乐、街头文化风格)
- 使用以下参数进行微调:
人声控制
vocal_timbre
- 示例:明亮、暗沉、温暖、冰冷、气声、鼻音、粗糙、顺滑、沙哑、金属感、轻柔、共鸣、空灵、烟雾感、性感、轻盈、清晰、高音、沙哑、有力、缥缈、长笛般、空洞、天鹅绒般、尖锐、嘶哑、圆润、单薄、厚实、芦苇般、银铃般、鼻音重。
- 描述了人声的固有特质。
techniques
(列表)
- 说唱风格:
含糊说唱
、超快说唱
、旋律说唱
、抒情说唱
、陷阱节奏说唱
、双倍速度说唱
- 人声特效:
自动调音
、混响
、延迟
、失真
- 表达方式:
低语
、呼喊
、朗诵
、旁白
、歌唱
- 其他:
即兴说唱
、呼应
、和声
社区说明
虽然中文说唱LoRA对于非中文社区来说可能看起来很小众,但我们通过此类项目不断证明,作为音乐生成基础模型的ACE-step拥有无限潜力。它不仅能提高一种语言的发音,还能催生新的音乐风格。
人类对音乐的普遍欣赏是一种宝贵的财富。就像抽象的乐高积木一样,这些元素最终会以更自然的方式组合在一起。希望我们的开源贡献能推动音乐历史的发展。
直接使用
ACE-Step可用于:
- 根据文本描述生成原创音乐
- 音乐混音和风格转换
- 编辑歌曲歌词
下游使用
该模型可作为以下应用的基础:
- 语音克隆应用
- 专业音乐生成(说唱、爵士等)
- 音乐制作工具
- 创意AI助手
不适用场景
该模型不应用于:
- 未经授权生成受版权保护的内容
- 创建有害或冒犯性的内容
- 将AI生成的音乐冒充为人类创作的音乐
如何开始使用
详情请见:https://github.com/ace-step/ACE-Step
硬件性能
设备 |
27步 |
60步 |
NVIDIA A100 |
27.27倍 |
12.27倍 |
RTX 4090 |
34.48倍 |
15.63倍 |
RTX 3090 |
12.76倍 |
6.48倍 |
M2 Max |
2.27倍 |
1.03倍 |
显示的是实时因子(RTF) - 数值越高表示生成速度越快
局限性
- 性能因语言而异(前10种语言表现最佳)
- 较长的生成(超过5分钟)可能会失去结构连贯性
- 罕见乐器可能无法完美呈现
- 输出不一致:对随机种子和输入时长高度敏感,导致结果像“抽卡”一样多变
- 特定风格的弱点:在某些音乐类型(如中文说唱)上表现不佳,风格遵循度和音乐性有限
- 连续性瑕疵:在重绘/扩展操作中存在不自然的过渡
- 人声质量:粗糙的人声合成缺乏细微差别
- 控制粒度:需要更细粒度的音乐参数控制
伦理考量
用户应:
- 验证生成作品的原创性
- 披露AI的参与
- 尊重文化元素和版权
- 避免生成有害内容
模型详情
属性 |
详情 |
开发团队 |
ACE Studio和StepFun |
模型类型 |
基于扩散的音乐生成,带有变压器调节 |
许可证 |
Apache 2.0 |
资源链接 |
项目页面 演示空间 GitHub仓库 |
引用
@misc{gong2025acestep,
title={ACE-Step: A Step Towards Music Generation Foundation Model},
author={Junmin Gong, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo},
howpublished={\url{https://github.com/ace-step/ACE-Step}},
year={2025},
note={GitHub repository}
}
致谢
本项目由ACE Studio和StepFun共同牵头。