CLIP - GmP - ViT - L - 14オープンソースモデル - テキストエンコーディングの最適化、情報処理性能の向上

ホーム

CLIP GmP ViT L 14

zer0intによって開発

OpenAI CLIP ViT-L/14をベースにしたファインチューニングモデルで、幾何学的パラメータ化(GmP)により性能向上を実現、特にテキストエンコーディング能力を最適化

テキスト生成画像

Transformers

オープンソースライセンス:MIT #テキスト拡張CLIP #幾何学的パラメータ調整 #マルチモーダル検索

ダウンロード数 6,275

リリース時間 : 6/15/2024

モデル概要

これは改良版のCLIP視覚言語モデルで、テキスト理解と画像検索能力の向上に焦点を当て、テキストから画像生成などのタスクに適しています

モデル特徴

幾何学的パラメータ化(GmP)

重みを半径成分と角度成分に分解し、重みベクトルの方向性と大きさを維持することでモデル性能を向上

高温トレーニング最適化

0.1の高温トレーニング+パラメータチューニングを採用し、テキスト理解能力を大幅に向上

マルチバージョン選択

TEXT(テキスト最適化)とSMOOTH(画像最適化)の2バージョンを提供し、異なるニーズに対応

高性能検索

MSCOCOなどのデータセットで優れた画像-テキスト検索能力を発揮

モデル能力

テキストエンコーディング

画像-テキストマッチング

画像検索

テキスト理解

Diffusers/Transformers統合をサポート

使用事例

テキストから画像生成

SD/SDXL/SD3のテキストエンコーダー代替

Stable Diffusionなどのモデルのテキストエンコーダー代替品として、より優れたプロンプト追従能力を提供

特にテキストの細部処理に優れる

テキストなし画像生成

SMOOTHバージョンはテキストなし画像でより良い詳細を表現可能

具体的なプロンプトに依存

クロスモーダル検索

画像-テキスト検索

テキストクエリに基づいて関連画像を検索

ゴールデンレトリーバー級の検索能力

🚀 CLIP-Lのファインチューニングモデル

このプロジェクトはCLIP-Lをファインチューニングしたモデルです。元のモデルはopenai/clip-vit-large-patch14で、ImageNet/ObjectNetの精度が向上しています。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。元のOpenAIのCLIPモデルもMIT Licenseです。

🚀 クイックスタート

モデルの基本情報

属性	詳情
ベースモデル	openai/clip-vit-large-patch14
学習データセット	SPRIGHT-T2I/spright_coco

モデルの使用方法

Huggingface Transformers / Diffusersパイプラインが実装されています。例えば、以下のようにモデルを使用できます。

from transformers import CLIPModel, CLIPProcessor, CLIPConfig
model_id = "zer0int/CLIP-GmP-ViT-L-14"
config = CLIPConfig.from_pretrained(model_id)

モデルのバージョンとダウンロード

一般的に、4種類のバージョンが提供されています。

テキストエンコーダのみの .safetensors ファイル
完全なモデルの .safetensors ファイル
状態辞書の pickle ファイル
完全なモデルの pickle ファイル（SHAチェックサム検証をバイパスした後、"import clip" -> clip.load() でそのまま使用できます）

テキストエンコーダの選択

Flux.1（またはSD3、SDXL、SDなど）のテキストエンコーダとしてCLIP-Lを置き換えたい場合、以下の2種類のモデルがあります。

👉 "TEXT" モデルは、特にテキストに対するプロンプトの追従性に優れています。ダウンロード
👉 "SMOOTH" モデルは、画像にテキストがない場合に、時々**より良い詳細を持つことがあります。ダウンロード
"GmP" の初期ファインチューニングモデルは非推奨で、上記のモデルより劣ります。ただし、ダウンロードすることもできます。

**注："TEXT" モデルはテキストに対して最適です。ただし、"SMOOTH" モデルが（テキストがない）シナリオで "TEXT" モデルより良いかどうかは、具体的なプロンプトに依存します。どちらが好ましいかを知る唯一の方法は、両方を試すことです。

🔧 技術詳細

ファインチューニング手法

このモデルは、幾何学的パラメータ化（GmP）を使用してファインチューニングされています。GmPでは、重みを放射成分 'r' と角度成分 'theta' に分解し、重みベクトルの方向性と大きさを保存します。

"通常の" CLIP MLP（多層パーセプトロン）:

(mlp): Sequential(
  |-(c_fc): Linear(in_features=1024, out_features=4096, bias=True)
  | (gelu): QuickGELU()
|-}-(c_proj): Linear(in_features=4096, out_features=1024, bias=True)
| | 
| |-- visual.transformer.resblocks.0.mlp.c_fc.weight
| |-- visual.transformer.resblocks.0.mlp.c_fc.bias
|
|---- visual.transformer.resblocks.0.mlp.c_proj.weight
|---- visual.transformer.resblocks.0.mlp.c_proj.bias


GmP CLIP MLP:

重みを以下に分解:
- 事前学習された重みのノルムとしての放射成分 'r'
- 正規化された方向としての角度成分 'theta'
-> 重みベクトルの方向性と大きさを保存

(mlp): Sequential(
  |-(c_fc): GeometricLinear()
  | (gelu): QuickGELU()
|-}-(c_proj): GeometricLinear()
| | 
| |-- visual.transformer.resblocks.0.mlp.c_fc.r
| |-- visual.transformer.resblocks.0.mlp.c_fc.theta
| |-- visual.transformer.resblocks.0.mlp.c_fc.bias
|
|---- visual.transformer.resblocks.0.mlp.c_proj.r
|---- visual.transformer.resblocks.0.mlp.c_proj.theta
|---- visual.transformer.resblocks.0.mlp.c_proj.bias

([text] transformer.resblocksについても同様)