C

Colqwen2 2b V1.0

由tsystems開發
基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型,能夠生成多向量文本與圖像表示
下載量 700
發布時間 : 12/24/2024

模型概述

ColQwen是基於視覺語言模型的新型架構,通過視覺特徵高效索引文檔,支持動態分辨率圖像輸入並保持寬高比不變

模型特點

動態分辨率處理
支持動態分辨率圖像輸入且不調整尺寸,最大分辨率可生成1024個圖像塊
多向量表示
採用ColBERT策略生成文本和圖像的多向量表示,提升檢索效率
高效訓練
使用LoRA適配器進行訓練,優化器選用paged_adamw_8bit,在8xH100 GPU上分佈式訓練

模型能力

視覺文檔檢索
多模態嵌入
圖像特徵提取
文本特徵提取

使用案例

文檔檢索
PDF文檔檢索
從大量PDF文檔中快速檢索相關內容
實驗表明增加圖像塊數量能顯著提升效果
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase