C

Colqwen2.5 V0.1

由vidore開發
基於Qwen2.5-VL-3B-Instruct與ColBERT策略的視覺檢索模型,能夠生成文本和圖像的多向量表示,用於高效文檔檢索。
下載量 985
發布時間 : 1/30/2025

模型概述

ColQwen2.5是一種視覺語言模型,通過視覺特徵高效索引文檔,支持動態輸入圖像分辨率,適用於文檔檢索任務。

模型特點

動態輸入圖像分辨率
支持不改變寬高比的動態輸入圖像分辨率,最大分辨率限制為最多生成768個圖像塊。
多向量表示
生成文本和圖像的ColBERT風格多向量表示,提升檢索效率。
高效訓練
採用LoRA適配器和paged_adamw_8bit優化器,在8 GPU上數據並行訓練,學習率5e-5,批次大小32。

模型能力

視覺文檔檢索
多向量表示生成
動態圖像處理

使用案例

文檔檢索
學術文獻檢索
用於檢索學術文獻中的特定內容,如圖表中的數據或特定文本段落。
實驗表明,增加圖像塊數量能顯著提升檢索效果。
PDF文檔檢索
從PDF文檔中檢索特定信息,如表格、圖表或文本內容。
在ViDoRe評估集上表現良好,與訓練集無重疊文檔。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase