L

LLM2CLIP Llama 3 8B Instruct CC Finetuned

由microsoft開發
LLM2CLIP是一種創新方法,通過大語言模型增強CLIP的跨模態能力,顯著提升視覺和文本表徵的判別力。
下載量 18.16k
發布時間 : 11/16/2024

模型概述

該方法通過對比學習微調LLM,將其文本能力遷移至CLIP的輸出嵌入層,突破原始CLIP文本編碼器的限制,支持更長更復雜的描述文本。

模型特點

LLM增強的文本表徵
通過微調大語言模型提升文本嵌入質量,突破原始CLIP的文本編碼限制
長文本支持
支持512token的文本輸入,處理更復雜的描述內容
跨語言能力
僅用英語數據訓練即可實現優秀的跨語言檢索性能
多模態兼容性
可與Llava等視覺語言模型無縫結合,全面超越原始CLIP性能

模型能力

圖像特徵提取
跨模態檢索
零樣本分類
多模態理解
長文本處理

使用案例

圖像檢索
複雜描述圖像搜索
使用自然語言長描述搜索相關圖像
在長文本檢索任務上性能提升16.5%
跨語言應用
非英語圖像檢索
使用非英語文本查詢相關圖像
使英語訓練模型躍升為最先進的跨語言模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase