L

Longclip GmP ViT L 14

zer0intによって開発
BeichenZhang/LongCLIP-LをベースにファインチューンしたCLIPモデルで、長文入力(248トークン)をサポートし、幾何学的パラメータ化(GmP)技術で性能向上を実現
ダウンロード数 4,859
リリース時間 : 6/15/2024

モデル概要

改良版CLIPモデルで、従来の77トークン制限を突破し、特に長文理解能力を最適化。SDXL/Stable Diffusionなどの生成モデルのテキストエンコーダーとして使用可能

モデル特徴

長文対応
248トークン入力に対応(従来CLIPは77トークン)。長文記述の理解能力を大幅に向上
幾何学的パラメータ化(GmP)
重み分解技術により事前学習知識の幾何学的特性を保持し、ファインチューン安定性を向上
ラベル平滑化損失
カスタム損失関数を採用し、小バッチ/狭領域ファインチューンのシナリオに特に適応
生成モデル互換
Stable Diffusion/Flux.1などの生成モデルのテキストエンコーダーと直接置換可能

モデル能力

長文画像マッチング
生成モデルテキストエンコーディング
クロスモーダル検索
ゼロショット分類

使用事例

AI生成コンテンツ
SDXLテキストエンコーディング強化
Stable Diffusion XLのテキストエンコーダーとして、より詳細な長文プロンプトをサポート
248トークン入力のコサイン類似度が77トークン切り捨て版より約29%向上
クロスモーダル検索
EC製品検索
詳細な製品説明に基づき対応画像をマッチング
狭領域ファインチーン後、ImageNet精度0.89を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase