L

Longclip GmP ViT L 14

由zer0int開發
基於BeichenZhang/LongCLIP-L微調的CLIP模型,支持長文本輸入(248詞符),採用幾何參數化(GmP)技術提升性能
下載量 4,859
發布時間 : 6/15/2024

模型概述

改進版CLIP模型,突破傳統77詞符限制,特別優化了長文本理解能力,可作為SDXL/Stable Diffusion等生成模型的文本編碼器

模型特點

長文本支持
支持248詞符輸入(傳統CLIP僅77詞符),顯著提升長文本描述的理解能力
幾何參數化(GmP)
通過權重分解技術保持預訓練知識的幾何特性,提升微調穩定性
標籤平滑損失
採用自定義損失函數,特別適合小批量/窄領域微調場景
生成模型兼容
可直接替換Stable Diffusion/Flux.1等生成模型的文本編碼器

模型能力

長文本圖像匹配
生成模型文本編碼
跨模態檢索
零樣本分類

使用案例

AI生成內容
SDXL文本編碼增強
作為Stable Diffusion XL的文本編碼器,支持更詳細的長文本提示
248詞符輸入的餘弦相似度比77詞符截斷版本提升約29%
跨模態檢索
電商產品搜索
根據詳細產品描述匹配對應圖像
在窄領域微調後ImageNet準確率達0.89
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase