L

LLM2CLIP Llama 3 8B Instruct CC Finetuned

microsoftによって開発
LLM2CLIPは革新的な手法で、大規模言語モデルによってCLIPのクロスモーダル能力を強化し、視覚とテキスト表現の識別力を大幅に向上させます。
ダウンロード数 18.16k
リリース時間 : 11/16/2024

モデル概要

この手法は対照学習によってLLMをファインチューニングし、そのテキスト能力をCLIPの出力埋め込み層に転移させ、元のCLIPテキストエンコーダーの制限を突破し、より長く複雑な記述テキストをサポートします。

モデル特徴

LLM強化テキスト表現
大規模言語モデルのファインチューニングによりテキスト埋め込み品質を向上させ、元のCLIPのテキストエンコーディング制限を突破
長文サポート
512トークンのテキスト入力をサポートし、より複雑な記述内容を処理可能
多言語能力
英語データのみでトレーニングしながら優れた多言語検索性能を実現
マルチモーダル互換性
Llavaなどの視覚言語モデルとシームレスに統合可能で、元のCLIP性能を全面的に凌駕

モデル能力

画像特徴抽出
クロスモーダル検索
ゼロショット分類
マルチモーダル理解
長文処理

使用事例

画像検索
複雑記述画像検索
自然言語による長文記述を使用して関連画像を検索
長文検索タスクで性能16.5%向上
多言語アプリケーション
非英語画像検索
非英語テキストクエリを使用して関連画像を検索
英語トレーニングモデルが最先端の多言語モデルに躍進
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase