L

LLM2CLIP Openai B 16

microsoftによって開発
LLM2CLIPは大規模言語モデル(LLM)を活用してCLIPの能力を拡張する革新的な手法で、対照学習フレームワークを通じてテキストの識別性を向上させ、クロスモーダルタスクの性能を大幅に向上させます。
ダウンロード数 1,154
リリース時間 : 11/7/2024

モデル概要

LLM2CLIPはLLMのキャプション空間での能力を微調整し、CLIPの視覚エンコーダーの教師モデルとして使用することで、元のCLIPテキストエンコーダーの制限を突破し、より長く複雑なテキスト入力をサポートし、クロスモーダルタスクのパフォーマンスを大幅に向上させます。

モデル特徴

LLM強化テキストエンコーディング
対照学習フレームワーク下でLLMを微調整することで、テキスト埋め込みの識別能力を大幅に向上
長文サポート
元のCLIPのテキスト長制限を突破し、より長く複雑なテキスト入力をサポート
多言語能力
英語データのみで訓練されたモデルが優れた多言語性能を示す
マルチモーダル互換性
Llavaなどのマルチモーダルモデルとシームレスに統合可能で、性能を全体的に向上

モデル能力

ゼロショット画像分類
クロスモーダル検索
長文理解
多言語サポート
視覚-言語アラインメント

使用事例

画像検索
長文画像検索
複雑な長文記述を使用して関連画像を検索
EVA02モデルと比較して16.5%性能向上
多言語画像検索
異なる言語のテキストを使用して画像を検索
英語で訓練されたモデルが優れた多言語能力を示す
マルチモーダルアプリケーション
Llava 1.5との統合
マルチモーダルモデルと組み合わせて視覚理解能力を向上
ほぼ全てのベンチマークテストで元のCLIPを上回る
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase