C

Colqwen2 V0.1

Developed by vidore
基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,能高效通过视觉特征索引文档
Downloads 21.25k
Release Time : 9/26/2024

Model Overview

ColQwen2是一种创新的视觉语言模型,通过扩展Qwen2-VL-2B架构并采用ColBERT式多向量表示策略,实现了高效的视觉文档检索功能。

Model Features

动态图像分辨率支持
支持动态输入图像分辨率且不进行尺寸调整,最大分辨率设定为最多生成768个图像块
多向量表示
采用ColBERT式多向量表示策略,能同时生成文本与图像的多向量表示
高效检索
通过视觉特征高效索引文档,特别适合PDF类文档检索
LoRA适配
在语言模型的Transformer层及投影层上应用低秩适配器(LoRA),优化训练效率

Model Capabilities

视觉文档检索
多模态表示学习
跨模态匹配
图像理解
文本理解

Use Cases

文档检索
学术文献检索
通过视觉特征快速检索学术PDF文档中的相关内容
企业文档管理
高效索引和管理企业内部的PDF文档库
跨模态搜索
图文关联搜索
通过文本查询检索相关图像内容,或通过图像检索相关文本描述
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase