開源In-Context-LoRA框架 - 微調文生圖模型生成自定義關聯圖像組

首頁

In Context LoRA

由ali-vilab開發

IC-LoRA是一種通過微調文生圖模型（如FLUX）來生成具有自定義內在關聯圖像組的框架，支持通過SDEdit實現條件生成。

文本生成圖像開源協議:MIT #多圖關聯生成 #圖像組條件控制 #任務無關框架

下載量 67.69k

發布時間 : 11/7/2024

模型概述

上下文LoRA(IC-LoRA)通過微調文生圖模型，可生成具有自定義內在關聯的圖像組，並支持通過SDEdit實現條件生成。該框架適用於廣泛任務場景。

模型特點

任務無關框架

作為通用框架支持各類任務，但需針對特定應用微調

可定製圖像組生成

可微調模型生成具有自定義關聯規則的圖像組

條件圖像組生成

支持基於圖像組條件生成新圖像組，實現可控生成

模型能力

生成具有內在關聯的圖像組

支持條件圖像生成

多任務適配

可控圖像生成

使用案例

創意設計

情侶頭像設計

生成具有關聯性的情侶卡通或寫實頭像

雙聯畫展現卡通貓偵探情侶裝

電影分鏡

生成連貫的電影場景分鏡

三場景展現節日嘉年華故事

視覺設計

字體設計

生成風格統一的字體設計方案

波普藝術風格泡泡字體四格展示

視覺識別設計

生成品牌視覺識別系統

農產品品牌視覺雙聯畫展示

實用工具

PPT模板

生成風格統一的PPT模板

四聯畫展示烹飪課PPT模板

家居裝飾

生成協調的家居裝飾方案

四聯畫展現原木風客廳設計

特效生成

沙塵暴特效

為圖像添加沙塵暴特效

雙聯畫展示騎行場景添加沙暴效果

火花特效

為圖像添加浪漫火花特效

雙聯畫展示求婚場景添加心形火花

🚀 上下文 LoRA（In-Context LoRA）

📢 In-Context LoRA（IC-LoRA）是一種用於微調文本到圖像模型的技術，可生成具有自定義內在關係的圖像集，並支持基於另一組圖像進行條件生成。它為圖像生成任務提供了強大的靈活性和可控性。

📢 [項目頁面] [GitHub 倉庫] [論文]

🚀 快速開始

🔥 最新消息

[2024-12-17] 🚀 我們很高興地發佈了 IDEA-Bench，這是一個全面的基準測試，旨在評估生成模型的零樣本任務泛化能力。該基準測試包含了跨越 275 個獨特案例的 100 個現實世界設計任務。儘管其具有通用目的，但表現最佳的模型 EMU2 在 100 分中僅獲得了 6.81 分，凸顯了該領域當前面臨的挑戰。快來探索這個基準測試，挑戰模型性能的極限！
[2024-11-16] 🌟 社區繼續在 IC-LoRA 上進行創新！令人興奮的項目包括用於 虛擬試穿、產品設計、對象消除、角色扮演 等的模型、ComfyUI 節點和工作流。在 使用 IC-LoRA 的社區創作 中探索他們的創作。非常感謝所有貢獻者的傑出努力！

✨ 使用 IC-LoRA 的社區創作

我們很高興展示社區利用上下文 LoRA（IC-LoRA）開展的創新項目。如果您有更多推薦或項目要分享，請隨時提交拉取請求！

項目名稱	類型	支持的任務
1. Comfyui_Object_Migration	ComfyUI 節點、工作流和 LoRA 模型	服裝遷移、卡通服裝寫實化等
2. Flux Simple Try On - In Context Lora	LoRA 模型和 ComfyUI 工作流	虛擬試穿
3. Flux In Context - visual identity Lora in Comfy	ComfyUI 工作流	視覺形象轉移
4. Workflows Flux In Context Lora For Product Design	ComfyUI 工作流	產品設計、角色扮演等
5. Flux Product Design - In Context Lora	LoRA 模型和 ComfyUI 工作流	產品設計
6. In Context lora + Character story generator + flux+ shichen	ComfyUI 工作流	角色電影故事生成
7. In- Context-Lora｜Cute 4koma 可愛四格漫畫	LoRA 模型和 ComfyUI 工作流	漫畫條生成
8. Creative Effects & Design LoRA Pack (In-Context LORA)	LoRA 模型和 ComfyUI 工作流	電影鏡頭生成等

我們衷心感謝所有貢獻者為推進 IC-LoRA 生態系統所做的傑出工作。

✨ 主要特性

與任務無關的框架：IC-LoRA 是一個通用框架，但對於不同的應用，它需要針對特定任務進行微調。
可定製的圖像集生成：您可以微調文本到圖像模型，以 生成具有可定製內在關係的圖像集。
基於圖像集的條件生成：您還可以 基於另一組圖像來條件生成一組圖像，從而實現廣泛的可控生成應用。

如需更多詳細信息和示例，請閱讀我們的論文或訪問我們的項目頁面。

📚 詳細文檔

模型概述

上下文 LoRA 對文本到圖像模型（例如 FLUX）進行微調，以生成具有可定製內在關係的圖像集，並可選擇使用 SDEdit 基於另一組圖像進行條件生成。它可以適應廣泛的任務。

這個模型中心包含了跨越 10 個任務的上下文 LoRA 模型。模型庫詳細介紹了這些模型及其推薦設置。有關這些模型的訓練方式的更多詳細信息，請參考我們的論文。

核心思想

IC-LoRA 的核心概念是將條件圖像和目標圖像拼接成一個單一的複合圖像，同時使用 自然語言 來定義任務。這種方法能夠無縫適應廣泛的應用。

模型庫

以下列出了 10 個上下文 LoRA 模型及其推薦設置。

任務	模型	推薦設置	示例提示
1. 情侶頭像設計	`couple-profile.safetensors`	`width: 2048, height: 1024`	`這張兩部分的圖像描繪了一對穿著偵探服裝的卡通貓情侶；[左] 一隻穿著風衣、戴著軟氈帽的黑貓拿著放大鏡向右看，而 [右] 一隻繫著領結、戴著相配帽子的白貓好奇地揚起眉毛，在昏暗的背景下營造出一個有趣的、帶有黑色電影風格的場景。`
2. 電影分鏡	`film-storyboard.safetensors`	`width: 1024, height: 1536`	`[電影鏡頭] 在一個熱鬧的節日裡，[場景 1] 我們看到 <Leo>，一個害羞的男孩，站在熱鬧的狂歡節邊緣，對五顏六色的遊樂設施和歡聲笑語感到驚歎，眼睛睜得大大的，[場景 2] 過渡到他不情願地嘗試一個大膽的遊戲，他的朋友們為他加油，[場景 3] 最終以一個勝利的時刻結束，他贏得了一隻巨大的毛絨熊，他自豪地舉起它讓所有人看到，臉上洋溢著驕傲。`
3. 字體設計	`font-design.safetensors`	`width: 1792, height: 1216`	`這張四格圖像展示了一種俏皮的泡泡字體，採用了充滿活力的波普藝術風格。[左上] 以亮粉色在圓點背景上顯示 “Pop Candy”；[右上] 以紫色顯示 “Sweet Treat”，周圍環繞著糖果插圖；[左下] 以多種鮮豔顏色顯示 “Yum!”；[右下] 在條紋背景上顯示 “Delicious”，非常適合有趣的、適合兒童的產品。`
4. 家居裝飾	`home-decoration.safetensors`	`width: 1344, height: 1728`	這張四格圖像展示了一個帶有溫暖木質色調和舒適裝飾元素的鄉村風格客廳；[左上] 有一個大型石制壁爐，木質架子上擺滿了書籍和蠟燭；[右上] 展示了一個復古皮革沙發，上面搭著格子毛毯，搭配著各種有質感的靠墊；[左下] 展示了一個角落，有一把木質扶手椅，旁邊的邊桌上放著一杯熱氣騰騰的咖啡和一本經典書籍；[右下] 捕捉到一個舒適的閱讀角落，有一個靠窗的座位、一條柔軟的皮草披肩和整齊堆放的裝飾原木。
5. 肖像插畫	`portrait-illustration.safetensors`	`width: 1152, height: 1088`	`這張兩格圖像展示了從寫實肖像到俏皮插畫的轉變，捕捉到了細節和藝術風格；[左] 照片中一名女子站在熱鬧的市場中，戴著寬邊帽子、穿著飄逸的波西米亞風格連衣裙和皮革斜挎包；[右] 插畫部分誇張地描繪了她的配飾和特徵，波西米亞風格的連衣裙以鮮豔的圖案和大膽的顏色呈現，而背景則簡化為抽象的市場攤位，給場景帶來了生動活潑的感覺。`
6. 肖像攝影	`portrait-photography.safetensors`	`width: 1344, height: 1728`	這張 [四格] 圖像展示了一位年輕藝術家在明亮而鼓舞人心的工作室中的創作過程；[左上] 她站在一塊大畫布前，手持畫筆，為一幅未完成的畫作添加鮮豔的顏色，[右上] 她坐在一張雜亂的木桌前，在筆記本上素描創意，周圍散落著各種藝術用品，[左下] 她停下來退後一步觀察自己的作品，若有所思地調整眼鏡，[右下] 她通過直接在調色板上混合顏料來嘗試不同的紋理，她專注的表情展示了她對自己技藝的執著。
7. PPT 模板	`ppt-templates.safetensors`	`width: 1984, height: 1152`	`這張四格圖像展示了一個用於烹飪工作坊的鄉村主題 PowerPoint 模板；[左上] 以溫暖的大地色調介紹 “從農場到餐桌烹飪”；[右上] 組織工作坊的各個部分，如 “食材”、“準備” 和 “上菜”；[左下] 顯示季節性農產品的食材清單；[右下] 包括廚師簡介和簡短的個人資料。`
8. 沙塵暴視覺效果	`sandstorm-visual-effect.safetensors`	`width: 1408, height: 1600`	`[沙塵暴公益廣告] 這張兩部分的圖像展示了一名自行車手通過沙塵暴視覺效果的轉變；[上] 上半部分展示了一名穿著鮮豔裝備的自行車手在晴朗開闊的道路上穩步騎行，背景是寧靜的天空，突出了專注和決心，[下] 下半部分將場景轉變為自行車手被猛烈的沙塵暴所籠罩，沙塵顆粒在自行車和騎手周圍劇烈旋轉，背景是暴風雨般的黑暗，強調了混亂和力量。`
9. 煙花視覺效果	`sparklers-visual-effect.safetensors`	`width: 960, height: 1088`	`[真實煙花疊加效果] 這張兩部分的圖像生動地展示了一個森林求婚場景被煙花疊加效果所改變；[上] 第一部分描繪了一名男子在黃昏時分的森林空地上單膝跪地，向他的伴侶獻上訂婚戒指，有溫暖的自然光線，[下] 而第二部分引入了發光的煙花，在這對情侶周圍形成一個心形，放大了這一刻的浪漫和喜悅。`
10. 視覺形象設計	`visual-identity-design.safetensors`	`width: 1472, height: 1024`	`這張兩格圖像展示了一個農產品品牌的歡樂形象，左半部分展示了一個微笑的菠蘿圖形和品牌名稱 “Fresh Tropic”，採用有趣、休閒的字體，背景是淡藍色；[左] 而右半部分將設計應用到一個可重複使用的購物袋上，菠蘿標誌為黑色，由一個人在市場環境中拿著，強調了品牌的親民和環保氛圍。`

📄 許可證

這個模型中心使用 FLUX 作為基礎模型。用戶在使用此代碼時必須遵守 FLUX 的許可證。有關更多詳細信息，請參考 FLUX 的許可證。

🔗 引用

如果您發現這項工作在您的研究中很有用，請考慮引用：

@article{lhhuang2024iclora,
  title={In-Context LoRA for Diffusion Transformers},
  author={Huang, Lianghua and Wang, Wei and Wu, Zhi-Fan and Shi, Yupeng and Dou, Huanzhang and Liang, Chen and Feng, Yutong and Liu, Yu and Zhou, Jingren},
  journal={arXiv preprint arxiv:2410.23775},
  year={2024}
}

@article{lhhuang2024iclora,
  title={Group Diffusion Transformers are Unsupervised Multitask Learners},
  author={Huang, Lianghua and Wang, Wei and Wu, Zhi-Fan and Dou, Huanzhang and Shi, Yupeng and Feng, Yutong and Liang, Chen and Liu, Yu and Zhou, Jingren},
  journal={arXiv preprint arxiv:2410.15027},
  year={2024}
}