支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


【closerAI ComfyUI】8G显存就能跑!这款开源音乐模型—​​ACE-Step让AI作曲神级进化,行业规则被改写!

发布日期:2025-05-10 21:29:07 浏览次数: 1678 作者:产品经理逛世界
推荐语

AI音乐创作迎来重大突破,8G显存即可运行的开源模型ACE-Step将改写行业规则。

核心内容:
1. ACE-Step音乐生成模型的技术特点与创新点
2. 与传统模型及闭源商业产品的性能对比
3. 开源生态如何推动音乐AI领域的进步与变革

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


【closerAI ComfyUI】8G显存就能跑!这款开源音乐模型—ACE-Step让AI作曲神级进化,行业规则被改写!
ACE-Step(中文名“音跃”)是由中国AI公司阶跃星辰(StepFun)与音乐生成平台ACE Studio联合推出的开源音乐大模型,旨在通过多模态技术与生成式AI的深度融合,构建“音乐领域的Stable Diffusion时刻”。该项目于2025年5月9日正式发布,标志着音乐生成技术从单模态向全流程可控创作的重大突破。

在数字音乐创作领域,生成高质量、高可控性的音乐内容一直是技术攻关的核心挑战。传统方法如基于循环神经网络(RNN)或Transformer的端到端模型,往往面临生成速度慢、长序列连贯性不足或计算资源消耗巨大的问题。近年来,随着AI技术的爆发,两类代表性方案逐渐崭露头角:

闭源商业产品:商业化驱动的“孤岛式”创新

以Yue(网易伏羲)、SongGen(OpenAI)为代表的闭源模型,凭借强大的歌词对齐能力和商业化资源迅速占领市场,但其局限性也十分明显:

  • 封闭生态:模型权重不公开,开发者无法二次开发或定制化;

  • 性能瓶颈:依赖单一模态输入(如纯文本),难以支持音频编辑或多语言场景;

  • 成本高昂:推理速度慢(生成4分钟音乐需5分钟),中小团队难以负担算力成本。

另一类是以DiffRhythm(Meta)为代表的开源扩散模型,虽通过概率采样实现了快速生成,但仍存在结构性缺陷:

  • 长尾问题:生成结果易出现节奏断裂或旋律重复;

  • 可控性差:难以精准调整风格或歌词细节;

  • 计算冗余:扩散过程的迭代特性导致生成效率低下。

在此背景下,ACE-Step(由中国团队阶跃星辰与ACE Studio联合开发)以开源开放为核心理念,通过架构创新与工程优化打破行业壁垒:

开源生态的崛起:ACE-Step的差异化之路

在此背景下,ACE-Step(由中国团队阶跃星辰与ACE Studio联合开发)以开源开放为核心理念,通过架构创新工程优化打破行业壁垒:

技术突破:三模块协同架构

  1. 扩散模型加速引擎
    融合Sana的Deep Compression AutoEncoder(DCAE),将音频压缩率提升300%,生成速度达20秒/4分钟音乐(A100 GPU),较闭源模型快15倍。

  2. 语义-结构双对齐机制
    通过MERT+m-hubert联合训练,实现歌词语义(REPA)与音乐结构的精准对齐,旋律-和声一致性准确率提升至92%(行业平均85%)。

  3. 轻量化控制架构
    基于线性Transformer的解码器支持歌词编辑、声纹克隆、风格迁移等细粒度控制

生态优势:开源社区的爆发力

相较于商业化产品的封闭性,ACE-Step通过以下方式重构音乐AI开发范式:

  • 全链路开源
    :模型权重、训练代码及ComfyUI工作流全面开放;
  • 低成本扩展
    :支持LoRA微调(仅需100MB显存即可训练个性化模型);
  • 多模态融合
    :原生支持文本、音频、歌词标签(如[verse][chorus])的混合输入。

如此优秀的一个音乐生成模型,不仅能文生音乐,还能进行高级的控制生成,如语音克隆、歌词编辑、混音和音轨生成。目前comfyUI官方已原生支持这个模型。

comfyUI中的实现与体验

comfyUI官方实现的模型下载:

https://huggingface.co/Comfy-Org/ACE-Step_ComfyUI_repackaged/tree/main/all_in_one

下载这个模型后,放置在comfyUI/models/checkpoint中。

ACE-step 文生音频工作流搭建很简单,如下图示:

  • 确保 Load Checkpoints 节点加载了 ace_step_v1_3.5b.safetensors 模型

  • 在 TextEncodeAceStepAudio 的 tags 输入对应的音乐风格等等

  • 在 TextEncodeAceStepAudio 的 lyrics 中输入对应的歌词,如果你不知道该输入哪些歌词

  • 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行音频的生成。

  • 等待内容生成返回结果后,你可在 Save Audio 节点中查看生成的音频,你可以点击播放试听,对应的音频也会被保存至 ComfyUI/output/audio (由Save Audio节点决定子目录名称)。


这里,我尝试了文生音频:

其它语言我不试了,我只搞中文!用哥哥的《追》来玩玩:

这一生也在进取 这分钟却挂念谁 我会说是唯独你不可失去 好风光似幻似虚 谁明人生乐趣 我会说为情为爱仍然是对 谁比你重要 成功了败了也完全无重要 谁比你重要 狂风与暴雨都因你燃烧 一追再追 只想追赶生命里一分一秒 原来多么可笑 你是真正目标 一追再追 追踪一些生活最基本需要 原来早不缺少

要先转拼音啦,用大语言模型来转:

在工作流中,上面是风格,下面是歌词。我也详细写了一些填写要点:

话不多说,执行队列!1分多钟时间可生成2分钟长度的音频!我是8G显存,大家作参考吧。

听一下:

这一生也在进取 这分钟却挂念谁 我会说是唯独你不可失去 好风光似幻似虚 谁明人生乐趣 我会说为情为爱仍然是对 谁比你重要 成功了败了也完全无重要 谁比你重要 狂风与暴雨都因你燃烧 一追再追 只想追赶生命里一分一秒 原来多么可笑 你是真正目标 一追再追 追踪一些生活最基本需要 原来早不缺少
以下是音频到音频的工作流:
我都放在同一个流中了。大家可自行搭建。
这个流注意的是,重绘幅度修改得小一点,约0.4。正如我们图像扩散一样的值.
虽然对中文支持一般般,但整体音乐生成对于我来讲,它是不错的。音乐方面我不是专业,但对于不懂制作音乐的小白来讲,它是牛逼的。相当于人均音乐生。


本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询