C

CLIP GmP ViT L 14

由zer0int開發
基於OpenAI CLIP ViT-L/14的微調模型,通過幾何參數化(GmP)實現性能提升,特別優化了文本編碼能力
下載量 6,275
發布時間 : 6/15/2024

模型概述

這是一個改進版的CLIP視覺語言模型,專注於提升文本理解和圖像檢索能力,適用於文本生成圖像等任務

模型特點

幾何參數化(GmP)
通過權重分解為徑向和角度分量,保持權重向量的方向性與量級,提升模型性能
高溫訓練優化
採用0.1高溫訓練+參數調優,顯著提升文本理解能力
多版本選擇
提供TEXT(文本優化)和SMOOTH(圖像優化)兩種版本,適應不同需求
高性能檢索
在MSCOCO等數據集上表現出優秀的圖像-文本檢索能力

模型能力

文本編碼
圖像-文本匹配
圖像檢索
文本理解
支持Diffusers/Transformers集成

使用案例

文本生成圖像
替代SD/SDXL/SD3的文本編碼器
作為Stable Diffusion等模型的文本編碼器替代品,提供更好的提示跟隨能力
特別擅長處理文本細節
無文本圖像生成
SMOOTH版本在無文本圖像中能呈現更好細節
取決於具體提示詞
跨模態檢索
圖像-文本檢索
基於文本查詢檢索相關圖像
黃金獵犬級檢索能手
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase