K

Kandinsky 2 2 Decoder

由kandinsky-community開發
康定斯基2.2是基於Dall-E 2和潛在擴散模型最佳實踐的文本生成圖像模型,採用CLIP作為文本與圖像編碼器,提升了視覺表現力。
下載量 15.44k
發布時間 : 6/9/2023

模型概述

該模型結合了CLIP多模態潛在空間的擴散圖像先驗技術,支持文本生成圖像、文本引導的圖像到圖像生成及圖像插值等功能。

模型特點

多模態潛在空間映射
採用CLIP作為文本與圖像編碼器,在CLIP多模態潛在空間之間建立擴散圖像先驗關係
高分辨率支持
支持512x512至1536x1536多種分辨率及任意寬高比訓練,可生成1024x1024任意比例輸出
圖像融合與編輯
創新的圖像插值功能,支持文本和圖像條件的權重混合

模型能力

文本生成圖像
文本引導的圖像到圖像生成
圖像插值

使用案例

創意設計
肖像生成
根據文本描述生成具有特定特徵的肖像畫
示例生成'藍色眼眸女性肖像',具有電影質感
場景創作
將簡單草圖轉化為奇幻景觀
將山脈草圖轉化為'電影級光影的奇幻景觀'
藝術創作
風格融合
將不同圖像風格進行插值融合
示例展示貓的圖片與梵高星空畫的風格融合
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase