L

LLM2CLIP Openai L 14 224

microsoftによって開発
LLM2CLIPは、大規模言語モデル(LLM)を活用してCLIPの潜在能力を解放する革新的な手法で、対照学習フレームワークを通じてテキスト識別性を向上させ、元のCLIPテキストエンコーダーの制限を突破します。
ダウンロード数 108
リリース時間 : 11/19/2024

モデル概要

LLM2CLIPは、対照学習フレームワーク下でLLMをキャプション空間で微調整し、そのテキスト能力を出力埋め込みに抽出することで、出力層のテキスト識別性を大幅に向上させます。その後、微調整されたLLMをCLIP視覚エンコーダーの強力な教師モデルとして使用する効率的なトレーニングプロセスを設計しました。

モデル特徴

CLIPテキストエンコーダーの制限突破
LLMを導入することで、より長く複雑なキャプションを使用可能にし、元のCLIPテキストエンコーダーのコンテキストウィンドウと能力制限を突破します。
言語横断能力
英語データのみでトレーニングされたCLIPモデルを最先端の言語横断モデルに変換します。
性能向上
長文および短文検索タスクにおいて、従来のSOTAモデルEVA02の性能を16.5%向上させました。
マルチモーダル互換性
Llava 1.5などのマルチモーダルモデルと組み合わせた場合、ほぼすべてのベンチマークでCLIPを継続的に凌駕します。

モデル能力

ゼロショット分類
クロスモーダル検索
長文処理
言語間変換

使用事例

画像検索
長文画像検索
より長く複雑なキャプションを使用した画像検索
性能16.5%向上
言語横断アプリケーション
言語横断画像検索
英語でトレーニングされたモデルを他の言語の画像検索に適用
最先端の言語横断モデルとなる
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase