C

CLIP GmP ViT L 14

zer0intによって開発
OpenAI CLIP ViT-L/14をベースにしたファインチューニングモデルで、幾何学的パラメータ化(GmP)により性能向上を実現、特にテキストエンコーディング能力を最適化
ダウンロード数 6,275
リリース時間 : 6/15/2024

モデル概要

これは改良版のCLIP視覚言語モデルで、テキスト理解と画像検索能力の向上に焦点を当て、テキストから画像生成などのタスクに適しています

モデル特徴

幾何学的パラメータ化(GmP)
重みを半径成分と角度成分に分解し、重みベクトルの方向性と大きさを維持することでモデル性能を向上
高温トレーニング最適化
0.1の高温トレーニング+パラメータチューニングを採用し、テキスト理解能力を大幅に向上
マルチバージョン選択
TEXT(テキスト最適化)とSMOOTH(画像最適化)の2バージョンを提供し、異なるニーズに対応
高性能検索
MSCOCOなどのデータセットで優れた画像-テキスト検索能力を発揮

モデル能力

テキストエンコーディング
画像-テキストマッチング
画像検索
テキスト理解
Diffusers/Transformers統合をサポート

使用事例

テキストから画像生成
SD/SDXL/SD3のテキストエンコーダー代替
Stable Diffusionなどのモデルのテキストエンコーダー代替品として、より優れたプロンプト追従能力を提供
特にテキストの細部処理に優れる
テキストなし画像生成
SMOOTHバージョンはテキストなし画像でより良い詳細を表現可能
具体的なプロンプトに依存
クロスモーダル検索
画像-テキスト検索
テキストクエリに基づいて関連画像を検索
ゴールデンレトリーバー級の検索能力
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase