LongCLIP-SAE-ViT-L-14開源模型 - 支持長文本輸入，優化文本圖像對齊

首頁

Longclip SAE ViT L 14

由zer0int開發

基於稀疏自編碼器（SAE）微調的Long-CLIP模型，支持長文本輸入，優化了文本-圖像對齊能力

文本生成圖像

Safetensors

#長文本CLIP優化 #對抗性微調 #零樣本圖像分類

下載量 290

發布時間 : 12/19/2024

模型概述

該模型是對Long-CLIP ViT-L/14的微調版本，通過稀疏自編碼器技術增強了處理長文本提示的能力，特別適合與騰訊混元視頻系統配合使用

模型特點

長文本支持

突破原始CLIP 77個token的限制，有效處理更長的文本輸入

稀疏自編碼器微調

通過SAE技術優化模型表示能力，提升文本-圖像對齊效果

騰訊混元視頻兼容

特別優化與HunyuanVideo系統的配合使用效果

對抗性訓練

基於對抗性排版攻擊數據集訓練，增強魯棒性

模型能力

長文本圖像生成引導

零樣本圖像分類

跨模態檢索

文本-圖像對齊

使用案例

創意內容生成

複雜場景圖像生成

根據包含多個細節的長文本提示生成對應圖像

可處理69個token的複雜場景描述

非典型概念可視化

將抽象或非常規概念轉化為視覺表現

保持優秀的一致性和提示跟隨能力

影視製作輔助

分鏡設計

根據詳細技術描述生成視覺參考

準確理解攝影參數和藝術風格

🚀 Long-CLIP ViT-L/14微調：SAE引導的對抗訓練

本項目聚焦於Long-CLIP ViT-L/14的微調，採用SAE引導的對抗訓練方法，提升模型在零樣本圖像分類任務中的性能。項目提供了詳細的訓練信息和代碼，同時也給出了模型的直接下載鏈接，方便用戶使用。

🚀 快速開始

數據集

zer0int/CLIP-adversarial-typographic-attack_text-image
SPRIGHT-T2I/spright_coco

基礎模型

BeichenZhang/LongCLIP-L

任務類型

零樣本圖像分類

✨ 主要特性

模型微調

SAE引導訓練：SAE即稀疏自編碼器。所有訓練信息和代碼可查看 github.com/zer0int/CLIP-SAE-finetune。
最佳搭配：此Long-CLIP模型，👉 直接下載文本編碼器 👈 也是與 HunyuanVideo 搭配使用的最佳選擇。
使用要求：需搭配 zer0int/ComfyUI-HunyuanVideo-Nyan 節點使用（該節點可改變大語言模型與CLIP的影響；否則，差異極小）。
支持作者：☕ 請作者喝咖啡

模型優勢

原始CLIP模型最大輸入為77個標記，但有效長度僅約20個標記。詳情可查看原始Long-CLIP論文。以下是HunyuanVideo的演示：

正常場景（69個標記）：鏡頭：16mm。光圈：f/2.8。色彩分級：藍綠色單色。燈光：低光逆光剪影。背景：夜間哥特式大教堂，彩色玻璃窗破碎。相機角度：從忍者肩部上方拍攝，跟蹤她在空中跳躍並落在屋頂上的過程。
分佈外場景（52個標記）：即使面對分佈外概念，模型仍能保持一致性並嚴格遵循提示。在這個超現實的噩夢紀錄片中，一隻長著人臉的大蜘蛛正在餐廳裡平靜地享用早餐。蜘蛛有著蜘蛛的身體，但前面是一張女士的臉，蜘蛛腿的末端是正常的人類手。

演示圖片與視頻

📚 詳細文檔

信息表格

屬性	詳情
數據集	zer0int/CLIP-adversarial-typographic-attack_text-image、SPRIGHT-T2I/spright_coco
基礎模型	BeichenZhang/LongCLIP-L
任務類型	零樣本圖像分類