L

LLM2CLIP Openai L 14 224

由microsoft開發
LLM2CLIP是一種利用大型語言模型(LLM)釋放CLIP潛力的創新方法,通過對比學習框架提升文本判別性,突破原始CLIP文本編碼器的限制。
下載量 108
發布時間 : 11/19/2024

模型概述

LLM2CLIP通過在對比學習框架下對LLM進行標題空間微調,將其文本能力提取到輸出嵌入中,顯著提升了輸出層的文本判別性。隨後設計了一個高效訓練流程,將微調後的LLM作為CLIP視覺編碼器的強力教師模型。

模型特點

突破CLIP文本編碼器限制
通過引入LLM,能夠使用更長、更復雜的標題,突破原始CLIP文本編碼器的上下文窗口和能力限制。
跨語言能力
將僅用英語數據訓練的CLIP模型轉化為最先進的跨語言模型。
性能提升
在長文本和短文本檢索任務上,將此前SOTA模型EVA02的性能提升了16.5%。
多模態兼容
與Llava 1.5等多模態模型結合時,在幾乎所有基準測試中都持續超越CLIP。

模型能力

零樣本分類
跨模態檢索
長文本處理
跨語言轉換

使用案例

圖像檢索
長文本圖像檢索
使用更長、更復雜的標題進行圖像檢索
性能提升16.5%
跨語言應用
跨語言圖像檢索
將英語訓練的模型應用於其他語言的圖像檢索
成為最先進的跨語言模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase