L

LLM2CLIP Openai B 16

由microsoft開發
LLM2CLIP是一種利用大語言模型(LLM)擴展CLIP能力的創新方法,通過對比學習框架提升文本判別性,顯著提升跨模態任務性能。
下載量 1,154
發布時間 : 11/7/2024

模型概述

LLM2CLIP通過微調LLM在標題空間的能力,並將其作為CLIP視覺編碼器的教師模型,突破原始CLIP文本編碼器的限制,支持更長更復雜的文本輸入,顯著提升跨模態任務表現。

模型特點

LLM增強文本編碼
通過微調LLM在對比學習框架下,顯著提升文本嵌入的判別能力
長文本支持
突破原始CLIP的文本長度限制,支持更長更復雜的文本輸入
跨語言能力
僅用英語數據訓練的模型展現出卓越的跨語言性能
多模態兼容性
可與Llava等多模態模型無縫結合,實現性能全面提升

模型能力

零樣本圖像分類
跨模態檢索
長文本理解
多語言支持
視覺-語言對齊

使用案例

圖像檢索
長文本圖像檢索
使用複雜的長文本描述檢索相關圖像
相比EVA02模型提升16.5%性能
跨語言圖像檢索
使用不同語言文本檢索圖像
英語訓練的模型展現出卓越跨語言能力
多模態應用
結合Llava 1.5
與多模態模型結合提升視覺理解能力
在幾乎所有基準測試中超越原始CLIP
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase