🚀 超大显存图像生成模型:Flux.1-heavy-17B
本项目是一个基于自合并的图像生成模型,通过将原始的12B参数模型进行合并,得到了一个17B参数的模型。虽然目前还处于概念验证阶段,但它在图像生成方面展现出了一定的潜力。

🚀 快速开始
扩散器(Diffusers)
可与推理管道配合使用,from_single_file
似乎需要传入自定义的层数:
model = FluxTransformer2DModel.from_single_file("flux.1-heavy-17B.safetensors", num_layers=32, num_single_layers=44)
Comfy
通过“加载扩散模型”节点正常加载即可。在Windows系统上,需要约80GB的系统内存,以避免数据交换到磁盘。推理时,假设将文本编码器进行卸载并在VAE解码期间卸载,大约需要35 - 40GB的显存。如果系统内存足够,部分卸载也可行。
训练
似乎可以直接与 ostris/ai-toolkit 配合使用。至少在我将 config -> process -> model -> name_or_path
指向本地文件夹中的模型时是可行的。
✨ 主要特性
- 自合并模型:这是原始12B参数 Flux.1-dev 模型的 17B自合并 版本。合并方式类似于70B -> 120B的大语言模型合并,通过重复和交织层组来实现。
- 图像生成能力:尽管是概念验证模型,但它可能是第一个能够生成连贯图像的开源17B图像模型,即使只是自合并的结果。
📦 安装指南
暂未提供相关安装步骤。
💻 使用示例
基础用法
model = FluxTransformer2DModel.from_single_file("flux.1-heavy-17B.safetensors", num_layers=32, num_single_layers=44)
高级用法
暂未提供相关高级用法示例。
📚 详细文档
关于模型
这是原始12B参数 Flux.1-dev 模型的 17B自合并 版本。合并方式类似于70B -> 120B的大语言模型合并,通过重复和交织层组来实现。
最终模型统计信息:
p 层: [ 32]
s 层: [ 44]
参数数量: [17.17B]
训练情况
合并后进行了一些训练,试图修复模型在合并过程中遭受的严重问题。但由于缺乏能够正确训练该模型的硬件,这主要还是一个 概念验证。不过,即使只是自合并,它也可能是第一个能够生成连贯图像的开源17B图像模型。
你可以看到文本在训练过程中的恢复情况。最左边的图像是第0步的基础合并结果:

使用说明
- 扩散器(Diffusers):应与推理管道配合使用,
from_single_file
似乎需要传入自定义的层数。
- Comfy:通过“加载扩散模型”节点正常加载。在Windows系统上,需要约80GB的系统内存,以避免数据交换到磁盘。推理时,假设将文本编码器进行卸载并在VAE解码期间卸载,大约需要35 - 40GB的显存。如果系统内存足够,部分卸载也可行。
- 训练:似乎可以直接与 ostris/ai-toolkit 配合使用。
Q&A
是否应该使用这个模型?
除非你想炫耀或者尝试将其训练成可用的模型,否则不建议使用。
合并脚本在哪里?
合并脚本是由三四个脚本和一些对偏置的手动编辑组成的复杂组合。你可以通过类似于 this 的方式,将层依次排列并重叠来复制合并过程,只需保留后面的单层不变。
合并后的(未训练)权重位于本仓库的 raw
文件夹中。如果你需要将其转换为Diffusers格式,可以使用 from_single_file -> save pretrained
。
是否支持GGUF或FP8?
为了充分体验在运行模型时耗尽各种资源的感觉,建议以BF16精度运行该模型。
(我本想提供一些相关内容,但我的RunPod信用额度又用完了)
设置和LoRA兼容性如何?
使用与常规Flux模型相同的设置即可。LoRA似乎至少有一定的效果,但由于块不匹配,不要期望它能有惊人的表现。
是否能生成连贯的图像?
可以生成连贯的图像,但文本和对提示的整体遵循情况可能存在问题。例如,文本生成可能会出现失败的情况:

封面图像是否经过挑选?
当然。
🔧 技术细节
合并方式类似于70B -> 120B的大语言模型合并,通过重复和交织层组来实现。具体来说,最终模型的统计信息如下:
p 层: [ 32]
s 层: [ 44]
参数数量: [17.17B]
📄 许可证
- 许可证类型:其他
- 许可证名称:flux-1-dev-non-commercial-license
- 许可证链接:LICENSE.md
属性 |
详情 |
模型类型 |
文本到图像、图像生成、Flux、合并 |
训练数据 |
暂未提供 |
⚠️ 重要提示
在Windows系统上使用Comfy时,需要约80GB的系统内存,以避免数据交换到磁盘。推理时,假设将文本编码器进行卸载并在VAE解码期间卸载,大约需要35 - 40GB的显存。
💡 使用建议
除非你想炫耀或者尝试将其训练成可用的模型,否则不建议使用该模型。使用与常规Flux模型相同的设置,LoRA可能有一定效果,但不要期望过高。