L

LLM2CLIP EVA02 L 14 336

由microsoft開發
LLM2CLIP是一種創新方法,通過大語言模型(LLM)增強CLIP的視覺表徵能力,顯著提升跨模態任務性能
下載量 75
發布時間 : 11/7/2024

模型概述

該方法利用LLM在字幕空間進行對比學習微調,提取文本能力到輸出嵌入中,突破原始CLIP文本編碼器的限制,實現更豐富的視覺表徵

模型特點

LLM增強的視覺表徵
通過大語言模型釋放CLIP潛力,整合更長更復雜的字幕描述
跨模態性能提升
在長文本和短文本檢索任務上性能提升16.5%
跨語言能力
將僅英文訓練的CLIP轉變為最先進的跨語言模型

模型能力

零樣本圖像分類
跨模態檢索
多語言視覺理解
長文本視覺關聯

使用案例

圖像理解
複雜場景理解
利用LLM處理長文本描述,實現更精準的圖像場景理解
超越傳統CLIP模型在複雜場景下的表現
跨語言應用
多語言圖像檢索
支持不同語言文本與圖像的關聯檢索
成為最先進的跨語言視覺模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase