开源In-Context-LoRA框架 - 微调文生图模型生成自定义关联图像组

首页

In Context LoRA

由 ali-vilab 开发

IC-LoRA是一种通过微调文生图模型（如FLUX）来生成具有自定义内在关联图像组的框架，支持通过SDEdit实现条件生成。

文本生成图像开源协议:MIT #多图关联生成 #图像组条件控制 #任务无关框架

下载量 67.69k

发布时间 : 11/7/2024

模型简介

上下文LoRA(IC-LoRA)通过微调文生图模型，可生成具有自定义内在关联的图像组，并支持通过SDEdit实现条件生成。该框架适用于广泛任务场景。

模型特点

任务无关框架

作为通用框架支持各类任务，但需针对特定应用微调

可定制图像组生成

可微调模型生成具有自定义关联规则的图像组

条件图像组生成

支持基于图像组条件生成新图像组，实现可控生成

模型能力

生成具有内在关联的图像组

支持条件图像生成

多任务适配

可控图像生成

使用案例

创意设计

情侣头像设计

生成具有关联性的情侣卡通或写实头像

双联画展现卡通猫侦探情侣装

电影分镜

生成连贯的电影场景分镜

三场景展现节日嘉年华故事

视觉设计

字体设计

生成风格统一的字体设计方案

波普艺术风格泡泡字体四格展示

视觉识别设计

生成品牌视觉识别系统

农产品品牌视觉双联画展示

实用工具

PPT模板

生成风格统一的PPT模板

四联画展示烹饪课PPT模板

家居装饰

生成协调的家居装饰方案

四联画展现原木风客厅设计

特效生成

沙尘暴特效

为图像添加沙尘暴特效

双联画展示骑行场景添加沙暴效果

火花特效

为图像添加浪漫火花特效

双联画展示求婚场景添加心形火花

🚀 上下文 LoRA（In-Context LoRA）

📢 In-Context LoRA（IC-LoRA）是一种用于微调文本到图像模型的技术，可生成具有自定义内在关系的图像集，并支持基于另一组图像进行条件生成。它为图像生成任务提供了强大的灵活性和可控性。

📢 [项目页面] [GitHub 仓库] [论文]

🚀 快速开始

🔥 最新消息

[2024-12-17] 🚀 我们很高兴地发布了 IDEA-Bench，这是一个全面的基准测试，旨在评估生成模型的零样本任务泛化能力。该基准测试包含了跨越 275 个独特案例的 100 个现实世界设计任务。尽管其具有通用目的，但表现最佳的模型 EMU2 在 100 分中仅获得了 6.81 分，凸显了该领域当前面临的挑战。快来探索这个基准测试，挑战模型性能的极限！
[2024-11-16] 🌟 社区继续在 IC-LoRA 上进行创新！令人兴奋的项目包括用于 虚拟试穿、产品设计、对象消除、角色扮演 等的模型、ComfyUI 节点和工作流。在 使用 IC-LoRA 的社区创作 中探索他们的创作。非常感谢所有贡献者的杰出努力！

✨ 使用 IC-LoRA 的社区创作

我们很高兴展示社区利用上下文 LoRA（IC-LoRA）开展的创新项目。如果您有更多推荐或项目要分享，请随时提交拉取请求！

项目名称	类型	支持的任务
1. Comfyui_Object_Migration	ComfyUI 节点、工作流和 LoRA 模型	服装迁移、卡通服装写实化等
2. Flux Simple Try On - In Context Lora	LoRA 模型和 ComfyUI 工作流	虚拟试穿
3. Flux In Context - visual identity Lora in Comfy	ComfyUI 工作流	视觉形象转移
4. Workflows Flux In Context Lora For Product Design	ComfyUI 工作流	产品设计、角色扮演等
5. Flux Product Design - In Context Lora	LoRA 模型和 ComfyUI 工作流	产品设计
6. In Context lora + Character story generator + flux+ shichen	ComfyUI 工作流	角色电影故事生成
7. In- Context-Lora｜Cute 4koma 可爱四格漫画	LoRA 模型和 ComfyUI 工作流	漫画条生成
8. Creative Effects & Design LoRA Pack (In-Context LORA)	LoRA 模型和 ComfyUI 工作流	电影镜头生成等

我们衷心感谢所有贡献者为推进 IC-LoRA 生态系统所做的杰出工作。

✨ 主要特性

与任务无关的框架：IC-LoRA 是一个通用框架，但对于不同的应用，它需要针对特定任务进行微调。
可定制的图像集生成：您可以微调文本到图像模型，以 生成具有可定制内在关系的图像集。
基于图像集的条件生成：您还可以 基于另一组图像来条件生成一组图像，从而实现广泛的可控生成应用。

如需更多详细信息和示例，请阅读我们的论文或访问我们的项目页面。

📚 详细文档

模型概述

上下文 LoRA 对文本到图像模型（例如 FLUX）进行微调，以生成具有可定制内在关系的图像集，并可选择使用 SDEdit 基于另一组图像进行条件生成。它可以适应广泛的任务。

这个模型中心包含了跨越 10 个任务的上下文 LoRA 模型。模型库详细介绍了这些模型及其推荐设置。有关这些模型的训练方式的更多详细信息，请参考我们的论文。

核心思想

IC-LoRA 的核心概念是将条件图像和目标图像拼接成一个单一的复合图像，同时使用 自然语言 来定义任务。这种方法能够无缝适应广泛的应用。

模型库

以下列出了 10 个上下文 LoRA 模型及其推荐设置。

任务	模型	推荐设置	示例提示
1. 情侣头像设计	`couple-profile.safetensors`	`width: 2048, height: 1024`	`这张两部分的图像描绘了一对穿着侦探服装的卡通猫情侣；[左] 一只穿着风衣、戴着软毡帽的黑猫拿着放大镜向右看，而 [右] 一只系着领结、戴着相配帽子的白猫好奇地扬起眉毛，在昏暗的背景下营造出一个有趣的、带有黑色电影风格的场景。`
2. 电影分镜	`film-storyboard.safetensors`	`width: 1024, height: 1536`	`[电影镜头] 在一个热闹的节日里，[场景 1] 我们看到 <Leo>，一个害羞的男孩，站在热闹的狂欢节边缘，对五颜六色的游乐设施和欢声笑语感到惊叹，眼睛睁得大大的，[场景 2] 过渡到他不情愿地尝试一个大胆的游戏，他的朋友们为他加油，[场景 3] 最终以一个胜利的时刻结束，他赢得了一只巨大的毛绒熊，他自豪地举起它让所有人看到，脸上洋溢着骄傲。`
3. 字体设计	`font-design.safetensors`	`width: 1792, height: 1216`	`这张四格图像展示了一种俏皮的泡泡字体，采用了充满活力的波普艺术风格。[左上] 以亮粉色在圆点背景上显示 “Pop Candy”；[右上] 以紫色显示 “Sweet Treat”，周围环绕着糖果插图；[左下] 以多种鲜艳颜色显示 “Yum!”；[右下] 在条纹背景上显示 “Delicious”，非常适合有趣的、适合儿童的产品。`
4. 家居装饰	`home-decoration.safetensors`	`width: 1344, height: 1728`	这张四格图像展示了一个带有温暖木质色调和舒适装饰元素的乡村风格客厅；[左上] 有一个大型石制壁炉，木质架子上摆满了书籍和蜡烛；[右上] 展示了一个复古皮革沙发，上面搭着格子毛毯，搭配着各种有质感的靠垫；[左下] 展示了一个角落，有一把木质扶手椅，旁边的边桌上放着一杯热气腾腾的咖啡和一本经典书籍；[右下] 捕捉到一个舒适的阅读角落，有一个靠窗的座位、一条柔软的皮草披肩和整齐堆放的装饰原木。
5. 肖像插画	`portrait-illustration.safetensors`	`width: 1152, height: 1088`	`这张两格图像展示了从写实肖像到俏皮插画的转变，捕捉到了细节和艺术风格；[左] 照片中一名女子站在热闹的市场中，戴着宽边帽子、穿着飘逸的波西米亚风格连衣裙和皮革斜挎包；[右] 插画部分夸张地描绘了她的配饰和特征，波西米亚风格的连衣裙以鲜艳的图案和大胆的颜色呈现，而背景则简化为抽象的市场摊位，给场景带来了生动活泼的感觉。`
6. 肖像摄影	`portrait-photography.safetensors`	`width: 1344, height: 1728`	这张 [四格] 图像展示了一位年轻艺术家在明亮而鼓舞人心的工作室中的创作过程；[左上] 她站在一块大画布前，手持画笔，为一幅未完成的画作添加鲜艳的颜色，[右上] 她坐在一张杂乱的木桌前，在笔记本上素描创意，周围散落着各种艺术用品，[左下] 她停下来退后一步观察自己的作品，若有所思地调整眼镜，[右下] 她通过直接在调色板上混合颜料来尝试不同的纹理，她专注的表情展示了她对自己技艺的执着。
7. PPT 模板	`ppt-templates.safetensors`	`width: 1984, height: 1152`	`这张四格图像展示了一个用于烹饪工作坊的乡村主题 PowerPoint 模板；[左上] 以温暖的大地色调介绍 “从农场到餐桌烹饪”；[右上] 组织工作坊的各个部分，如 “食材”、“准备” 和 “上菜”；[左下] 显示季节性农产品的食材清单；[右下] 包括厨师简介和简短的个人资料。`
8. 沙尘暴视觉效果	`sandstorm-visual-effect.safetensors`	`width: 1408, height: 1600`	`[沙尘暴公益广告] 这张两部分的图像展示了一名自行车手通过沙尘暴视觉效果的转变；[上] 上半部分展示了一名穿着鲜艳装备的自行车手在晴朗开阔的道路上稳步骑行，背景是宁静的天空，突出了专注和决心，[下] 下半部分将场景转变为自行车手被猛烈的沙尘暴所笼罩，沙尘颗粒在自行车和骑手周围剧烈旋转，背景是暴风雨般的黑暗，强调了混乱和力量。`
9. 烟花视觉效果	`sparklers-visual-effect.safetensors`	`width: 960, height: 1088`	`[真实烟花叠加效果] 这张两部分的图像生动地展示了一个森林求婚场景被烟花叠加效果所改变；[上] 第一部分描绘了一名男子在黄昏时分的森林空地上单膝跪地，向他的伴侣献上订婚戒指，有温暖的自然光线，[下] 而第二部分引入了发光的烟花，在这对情侣周围形成一个心形，放大了这一刻的浪漫和喜悦。`
10. 视觉形象设计	`visual-identity-design.safetensors`	`width: 1472, height: 1024`	`这张两格图像展示了一个农产品品牌的欢乐形象，左半部分展示了一个微笑的菠萝图形和品牌名称 “Fresh Tropic”，采用有趣、休闲的字体，背景是淡蓝色；[左] 而右半部分将设计应用到一个可重复使用的购物袋上，菠萝标志为黑色，由一个人在市场环境中拿着，强调了品牌的亲民和环保氛围。`

📄 许可证

这个模型中心使用 FLUX 作为基础模型。用户在使用此代码时必须遵守 FLUX 的许可证。有关更多详细信息，请参考 FLUX 的许可证。

🔗 引用

如果您发现这项工作在您的研究中很有用，请考虑引用：

@article{lhhuang2024iclora,
  title={In-Context LoRA for Diffusion Transformers},
  author={Huang, Lianghua and Wang, Wei and Wu, Zhi-Fan and Shi, Yupeng and Dou, Huanzhang and Liang, Chen and Feng, Yutong and Liu, Yu and Zhou, Jingren},
  journal={arXiv preprint arxiv:2410.23775},
  year={2024}
}

@article{lhhuang2024iclora,
  title={Group Diffusion Transformers are Unsupervised Multitask Learners},
  author={Huang, Lianghua and Wang, Wei and Wu, Zhi-Fan and Dou, Huanzhang and Shi, Yupeng and Feng, Yutong and Liang, Chen and Liu, Yu and Zhou, Jingren},
  journal={arXiv preprint arxiv:2410.15027},
  year={2024}
}