CLIP-GmP-ViT-L-14開源模型 - 優化文本編碼，提升信息處理性能

首頁

CLIP GmP ViT L 14

由zer0int開發

基於OpenAI CLIP ViT-L/14的微調模型，通過幾何參數化(GmP)實現性能提升，特別優化了文本編碼能力

文本生成圖像

Transformers

開源協議:MIT #文本增強CLIP #幾何參數化微調 #多模態檢索

下載量 6,275

發布時間 : 6/15/2024

模型概述

這是一個改進版的CLIP視覺語言模型，專注於提升文本理解和圖像檢索能力，適用於文本生成圖像等任務

模型特點

幾何參數化(GmP)

通過權重分解為徑向和角度分量，保持權重向量的方向性與量級，提升模型性能

高溫訓練優化

採用0.1高溫訓練+參數調優，顯著提升文本理解能力

多版本選擇

提供TEXT(文本優化)和SMOOTH(圖像優化)兩種版本，適應不同需求

高性能檢索

在MSCOCO等數據集上表現出優秀的圖像-文本檢索能力

模型能力

文本編碼

圖像-文本匹配

圖像檢索

文本理解

支持Diffusers/Transformers集成

使用案例

文本生成圖像

替代SD/SDXL/SD3的文本編碼器

作為Stable Diffusion等模型的文本編碼器替代品，提供更好的提示跟隨能力

特別擅長處理文本細節

無文本圖像生成

SMOOTH版本在無文本圖像中能呈現更好細節

取決於具體提示詞

跨模態檢索

圖像-文本檢索

基於文本查詢檢索相關圖像

黃金獵犬級檢索能手

🚀 CLIP-L微調模型

這是對CLIP-L的微調模型，原模型為 openai/clip-vit-large-patch14，該微調模型在ImageNet/ObjectNet上有著前所未有的約0.90的準確率（原預訓練模型OpenAI的CLIP約為0.85）。

🚀 快速開始

集成到Huggingface Transformers / Diffusers管道

自2024年9月23日更新後，已實現Huggingface Transformers / Diffusers管道。示例腳本見：Integrating my CLIP-L with Flux.1。也可以像使用任何HF模型一樣使用它：

from transformers import CLIPModel, CLIPProcessor, CLIPConfig
model_id = "zer0int/CLIP-GmP-ViT-L-14"
config = CLIPConfig.from_pretrained(model_id)

✨ 主要特性

高精度：在ImageNet/ObjectNet上有著約0.90的準確率，高於原預訓練模型。
多版本可選：提供文本編碼器僅.safetensors、完整模型.safetensors、狀態字典pickle、完整模型pickle等四種版本。
新損失函數：使用帶有標籤平滑的自定義損失函數進行微調。

📦 安裝指南

暫未提供具體安裝步驟。

💻 使用示例

基礎用法

from transformers import CLIPModel, CLIPProcessor, CLIPConfig
model_id = "zer0int/CLIP-GmP-ViT-L-14"
config = CLIPConfig.from_pretrained(model_id)

📚 詳細文檔

模型版本選擇

如果你正在尋找用於Flux.1（或SD3、SDXL、SD等）的文本編碼器來替代CLIP-L，一般建議選擇“僅TE”的.safetensors文件：

“TEXT”模型：具有卓越的提示跟隨能力，尤其適用於文本，對其他細節也有很好的處理效果。下載
“SMOOTH”模型：在圖像中沒有文本時，有時能呈現更好的細節。下載
“GmP”初始微調模型：已棄用，效果不如上述模型，但仍可下載。

模型性能

模態差距：“TEXT”模型的模態差距為0.80（OpenAI預訓練模型為0.82），通過高溫0.1訓練和調整實現。
準確率：“SMOOTH”和“TEXT”模型在ImageNet/ObjectNet上的準確率約為0.91（預訓練模型約為0.84）。

微調方法

2024年8月11日更新，新增表現最佳的CLIP ViT-L/14 'GmP-smooth'模型，可直接下載名為 BEST 的文件。也可以自行微調：

幾何參數化（GmP）
對“副詞神經元”進行激活值操作
新增：帶有標籤平滑的自定義損失函數

詳細細節見 GitHub。

模型結構

"Normal" CLIP MLP (multi-layer perceptron):

(mlp): Sequential(
  |-(c_fc): Linear(in_features=1024, out_features=4096, bias=True)
  | (gelu): QuickGELU()
|-}-(c_proj): Linear(in_features=4096, out_features=1024, bias=True)
| | 
| |-- visual.transformer.resblocks.0.mlp.c_fc.weight
| |-- visual.transformer.resblocks.0.mlp.c_fc.bias
|
|---- visual.transformer.resblocks.0.mlp.c_proj.weight
|---- visual.transformer.resblocks.0.mlp.c_proj.bias


GmP CLIP MLP:

Weight decomposition into:
- radial component 'r' as norm of pre-trained weights
- angular component 'theta' as normalized direction
-> preserves weight vectors' directionality and magnitude

(mlp): Sequential(
  |-(c_fc): GeometricLinear()
  | (gelu): QuickGELU()
|-}-(c_proj): GeometricLinear()
| | 
| |-- visual.transformer.resblocks.0.mlp.c_fc.r
| |-- visual.transformer.resblocks.0.mlp.c_fc.theta
| |-- visual.transformer.resblocks.0.mlp.c_fc.bias
|
|---- visual.transformer.resblocks.0.mlp.c_proj.r
|---- visual.transformer.resblocks.0.mlp.c_proj.theta
|---- visual.transformer.resblocks.0.mlp.c_proj.bias

(Same thing for [text] transformer.resblocks)

🔧 技術細節

本微調模型使用幾何參數化（GmP）方法，將權重分解為徑向分量'r'（預訓練權重的範數）和角向分量'theta'（歸一化方向），從而保留權重向量的方向性和大小。通過這種方法以及對“副詞神經元”的激活值操作和帶有標籤平滑的自定義損失函數，實現了在ImageNet/ObjectNet上的高精度。

📄 許可證

本項目基於MIT許可證，原預訓練CLIP模型由OpenAI提供，許可證為 MIT License。

⚠️ 重要提示

關於訓練和評估的詳細信息，請見 https://github.com/zer0int/CLIP-fine-tune。你可以使用 "exp-acts-ft-finetune-OpenAI-CLIP-ViT-L-14-GmP-manipulate-neurons.py" 來複現我的精確模型微調。