C

Clip Flant5 Xl

由zhiqiulin開發
專為圖像-文本檢索任務微調的視覺-語言生成模型,基於google/flan-t5-xl改進
下載量 13.44k
發布時間 : 12/13/2023

模型概述

該模型是google/flan-t5-xl的微調版本,主要用於圖像與文本的檢索任務,在VQAScore論文中有相關應用展示。

模型特點

視覺-語言生成能力
結合圖像和文本信息進行跨模態檢索與生成
基於Flan-T5-XL微調
在強大的語言模型基礎上進行視覺任務適配
開源許可
採用Apache-2.0許可證,允許商業和研究使用

模型能力

圖像-文本匹配
跨模態檢索
視覺問答(VQA)相關任務

使用案例

信息檢索
圖像搜索
根據文本描述檢索相關圖像
文本搜索
根據圖像內容檢索相關文本描述
輔助研究
視覺問答研究
用於VQAScore相關研究
論文中展示的應用效果
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase