Flux.1-Heavy-17B开源AI模型 - 概念验证助力多种应用探索与发展

首页

Flux.1 Heavy 17B

由 city96 开发

这是对原始120亿参数Flux.1-dev模型进行的170亿参数自融合版本，通过分组重复和交错网络层实现参数扩展，目前主要作为概念验证。

文本生成图像开源协议:其他 #超大规模图像生成 #显存极限测试 #层叠编织架构

下载量 101

发布时间 : 11/17/2024

模型简介

一个实验性的170亿参数文本生成图像模型，通过层叠编织法合并原始模型实现参数扩展，能够生成连贯图像但稳定性有待提升。

模型特点

超大参数规模

通过自融合技术将原始120亿参数扩展至170亿，可能是首个能生成连贯图像的开源170亿参数图生模型

实验性层叠编织法

采用类似LLM的层叠编织合并技术，通过分组重复和交错网络层实现参数扩展

高硬件需求

专为高显存设备设计，推理需35-40GB显存，是测试硬件极限的理想选择

模型能力

文本生成图像

图像生成

使用案例

概念验证

大参数模型研究

验证超大规模参数图像生成模型的可行性

成功生成部分连贯图像但稳定性不足

硬件测试

显存压力测试

用于测试高端GPU的显存容量和处理能力

可在40GB A100上实现显存满载

🚀 超大显存图像生成模型：Flux.1-heavy-17B

本项目是一个基于自合并的图像生成模型，通过将原始的12B参数模型进行合并，得到了一个17B参数的模型。虽然目前还处于概念验证阶段，但它在图像生成方面展现出了一定的潜力。

主封面

🚀 快速开始

扩散器（Diffusers）

可与推理管道配合使用，from_single_file 似乎需要传入自定义的层数：

model = FluxTransformer2DModel.from_single_file("flux.1-heavy-17B.safetensors", num_layers=32, num_single_layers=44)

Comfy

通过“加载扩散模型”节点正常加载即可。在Windows系统上，需要约80GB的系统内存，以避免数据交换到磁盘。推理时，假设将文本编码器进行卸载并在VAE解码期间卸载，大约需要35 - 40GB的显存。如果系统内存足够，部分卸载也可行。

训练

似乎可以直接与 ostris/ai-toolkit 配合使用。至少在我将 config -> process -> model -> name_or_path 指向本地文件夹中的模型时是可行的。

✨ 主要特性

自合并模型：这是原始12B参数 Flux.1-dev 模型的 17B自合并 版本。合并方式类似于70B -> 120B的大语言模型合并，通过重复和交织层组来实现。
图像生成能力：尽管是概念验证模型，但它可能是第一个能够生成连贯图像的开源17B图像模型，即使只是自合并的结果。

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

基础用法

model = FluxTransformer2DModel.from_single_file("flux.1-heavy-17B.safetensors", num_layers=32, num_single_layers=44)

高级用法

暂未提供相关高级用法示例。

📚 详细文档

关于模型

这是原始12B参数 Flux.1-dev 模型的 17B自合并 版本。合并方式类似于70B -> 120B的大语言模型合并，通过重复和交织层组来实现。

最终模型统计信息:
 p 层: [    32]
 s 层: [    44]
 参数数量: [17.17B]

训练情况

合并后进行了一些训练，试图修复模型在合并过程中遭受的严重问题。但由于缺乏能够正确训练该模型的硬件，这主要还是一个 概念验证。不过，即使只是自合并，它也可能是第一个能够生成连贯图像的开源17B图像模型。

你可以看到文本在训练过程中的恢复情况。最左边的图像是第0步的基础合并结果：

训练过程

使用说明

扩散器（Diffusers）：应与推理管道配合使用，from_single_file 似乎需要传入自定义的层数。
Comfy：通过“加载扩散模型”节点正常加载。在Windows系统上，需要约80GB的系统内存，以避免数据交换到磁盘。推理时，假设将文本编码器进行卸载并在VAE解码期间卸载，大约需要35 - 40GB的显存。如果系统内存足够，部分卸载也可行。
训练：似乎可以直接与 ostris/ai-toolkit 配合使用。

Q&A

是否应该使用这个模型？

除非你想炫耀或者尝试将其训练成可用的模型，否则不建议使用。

合并脚本在哪里？

合并脚本是由三四个脚本和一些对偏置的手动编辑组成的复杂组合。你可以通过类似于 this 的方式，将层依次排列并重叠来复制合并过程，只需保留后面的单层不变。

合并后的（未训练）权重位于本仓库的 raw 文件夹中。如果你需要将其转换为Diffusers格式，可以使用 from_single_file -> save pretrained。

是否支持GGUF或FP8？

为了充分体验在运行模型时耗尽各种资源的感觉，建议以BF16精度运行该模型。

（我本想提供一些相关内容，但我的RunPod信用额度又用完了）

设置和LoRA兼容性如何？

使用与常规Flux模型相同的设置即可。LoRA似乎至少有一定的效果，但由于块不匹配，不要期望它能有惊人的表现。

是否能生成连贯的图像？

可以生成连贯的图像，但文本和对提示的整体遵循情况可能存在问题。例如，文本生成可能会出现失败的情况：

文本生成失败示例

封面图像是否经过挑选？

当然。

🔧 技术细节

合并方式类似于70B -> 120B的大语言模型合并，通过重复和交织层组来实现。具体来说，最终模型的统计信息如下：

p 层: [    32]
s 层: [    44]
参数数量: [17.17B]

📄 许可证

许可证类型：其他
许可证名称：flux-1-dev-non-commercial-license
许可证链接：LICENSE.md

属性	详情
模型类型	文本到图像、图像生成、Flux、合并
训练数据	暂未提供

⚠️ 重要提示

在Windows系统上使用Comfy时，需要约80GB的系统内存，以避免数据交换到磁盘。推理时，假设将文本编码器进行卸载并在VAE解码期间卸载，大约需要35 - 40GB的显存。

💡 使用建议

除非你想炫耀或者尝试将其训练成可用的模型，否则不建议使用该模型。使用与常规Flux模型相同的设置，LoRA可能有一定效果，但不要期望过高。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库