InstructCIR開源圖像檢索模型 - 免費部署實現圖像文本到文本生成

首頁

Instructcir Llava Phi35 Clip224 Lp

由uta-smile開發

InstructCIR是一個基於指令感知對比學習的組合式圖像檢索模型，採用ViT-L-224和Phi-3.5-Mini架構，專注於圖像文本到文本生成任務。

圖像生成文本

PyTorch

開源協議:Apache-2.0 #指令感知圖像檢索 #組合式圖像搜索 #對比學習優化

下載量 15

發布時間 : 12/16/2024

模型概述

該模型通過指令感知對比學習實現組合式圖像檢索，能夠根據文本指令檢索相關圖像，適用於多模態信息檢索場景。

模型特點

指令感知對比學習

採用指令感知的對比學習方法，提升模型對複雜指令的理解能力

組合式圖像檢索

能夠處理組合式查詢，實現更精準的圖像檢索

多模態架構

結合視覺Transformer和語言模型，實現圖像與文本的跨模態理解

模型能力

圖像檢索

文本生成

多模態理解

指令跟隨

使用案例

電子商務

商品圖像檢索

根據用戶描述檢索相關商品圖像

提升商品搜索準確率

內容管理

媒體庫檢索

基於複雜描述檢索媒體庫中的圖像

提高內容管理效率

屬性	詳情
模型類型	圖像文本到文本（image-text-to-text）

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Instructcir Llava Phi35 Clip224 Lp

模型概述

模型特點

模型能力

使用案例

🚀 InstructCIR

🚀 快速開始

📄 許可證

📚 詳細文檔

評估指標

模型信息

引用信息