L

LLM2CLIP EVA02 L 14 336

microsoftによって開発
LLM2CLIPは革新的な手法で、大規模言語モデル(LLM)を用いてCLIPの視覚表現能力を強化し、クロスモーダルタスクの性能を大幅に向上させます
ダウンロード数 75
リリース時間 : 11/7/2024

モデル概要

この手法はLLMを活用してキャプション空間で対照学習の微調整を行い、テキスト能力を出力埋め込みに抽出することで、元のCLIPテキストエンコーダーの制限を突破し、より豊富な視覚表現を実現します

モデル特徴

LLM強化型視覚表現
大規模言語モデルでCLIPの潜在能力を解放し、より長く複雑なキャプション記述を統合
クロスモーダル性能向上
長文と短文の検索タスクで16.5%の性能向上を達成
多言語能力
英語のみで訓練されたCLIPを最先端の多言語モデルに進化

モデル能力

ゼロショット画像分類
クロスモーダル検索
多言語視覚理解
長文視覚関連付け

使用事例

画像理解
複雑シーン理解
LLMで長文記述を処理し、より正確な画像シーン理解を実現
従来のCLIPモデルを超える複雑シーンでの性能
多言語応用
多言語画像検索
異なる言語のテキストと画像の関連検索をサポート
最先端の多言語視覚モデルとしての地位を確立
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase