L

Longclip SAE ViT L 14

由zer0int開發
基於稀疏自編碼器(SAE)微調的Long-CLIP模型,支持長文本輸入,優化了文本-圖像對齊能力
下載量 290
發布時間 : 12/19/2024

模型概述

該模型是對Long-CLIP ViT-L/14的微調版本,通過稀疏自編碼器技術增強了處理長文本提示的能力,特別適合與騰訊混元視頻系統配合使用

模型特點

長文本支持
突破原始CLIP 77個token的限制,有效處理更長的文本輸入
稀疏自編碼器微調
通過SAE技術優化模型表示能力,提升文本-圖像對齊效果
騰訊混元視頻兼容
特別優化與HunyuanVideo系統的配合使用效果
對抗性訓練
基於對抗性排版攻擊數據集訓練,增強魯棒性

模型能力

長文本圖像生成引導
零樣本圖像分類
跨模態檢索
文本-圖像對齊

使用案例

創意內容生成
複雜場景圖像生成
根據包含多個細節的長文本提示生成對應圖像
可處理69個token的複雜場景描述
非典型概念可視化
將抽象或非常規概念轉化為視覺表現
保持優秀的一致性和提示跟隨能力
影視製作輔助
分鏡設計
根據詳細技術描述生成視覺參考
準確理解攝影參數和藝術風格
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase