C

Colqwen2 V0.1

由vidore開發
基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型,能高效通過視覺特徵索引文檔
下載量 21.25k
發布時間 : 9/26/2024

模型概述

ColQwen2是一種創新的視覺語言模型,通過擴展Qwen2-VL-2B架構並採用ColBERT式多向量表示策略,實現了高效的視覺文檔檢索功能。

模型特點

動態圖像分辨率支持
支持動態輸入圖像分辨率且不進行尺寸調整,最大分辨率設定為最多生成768個圖像塊
多向量表示
採用ColBERT式多向量表示策略,能同時生成文本與圖像的多向量表示
高效檢索
通過視覺特徵高效索引文檔,特別適合PDF類文檔檢索
LoRA適配
在語言模型的Transformer層及投影層上應用低秩適配器(LoRA),優化訓練效率

模型能力

視覺文檔檢索
多模態表示學習
跨模態匹配
圖像理解
文本理解

使用案例

文檔檢索
學術文獻檢索
通過視覺特徵快速檢索學術PDF文檔中的相關內容
企業文檔管理
高效索引和管理企業內部的PDF文檔庫
跨模態搜索
圖文關聯搜索
通過文本查詢檢索相關圖像內容,或通過圖像檢索相關文本描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase