I

Instructcir Llava Phi35 Clip224 Lp

由uta-smile開發
InstructCIR是一個基於指令感知對比學習的組合式圖像檢索模型,採用ViT-L-224和Phi-3.5-Mini架構,專注於圖像文本到文本生成任務。
下載量 15
發布時間 : 12/16/2024

模型概述

該模型通過指令感知對比學習實現組合式圖像檢索,能夠根據文本指令檢索相關圖像,適用於多模態信息檢索場景。

模型特點

指令感知對比學習
採用指令感知的對比學習方法,提升模型對複雜指令的理解能力
組合式圖像檢索
能夠處理組合式查詢,實現更精準的圖像檢索
多模態架構
結合視覺Transformer和語言模型,實現圖像與文本的跨模態理解

模型能力

圖像檢索
文本生成
多模態理解
指令跟隨

使用案例

電子商務
商品圖像檢索
根據用戶描述檢索相關商品圖像
提升商品搜索準確率
內容管理
媒體庫檢索
基於複雜描述檢索媒體庫中的圖像
提高內容管理效率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase