colqwen2.5-3b-multilingual-v1.0开源模型 - 支持多语言文档及动态图像分辨率视觉检索

首页

Colqwen2.5 3b Multilingual V1.0

由 tsystems 开发

基于Qwen2.5-VL-3B-Instruct与ColBERT策略的多语言视觉检索模型，支持动态输入图像分辨率和多语言文档检索。

文本生成图像

Safetensors

支持多种语言开源协议:MIT #多模态文档检索 #动态图像分辨率 #ColBERT多向量

下载量 13.29k

发布时间 : 3/9/2025

模型简介

ColQwen是一种新型视觉语言模型架构，能高效通过视觉特征索引文档，生成ColBERT风格的多向量文本与图像表征，适用于多语言视觉文档检索任务。

模型特点

多语言支持

支持英语、法语、西班牙语、意大利语和德语五种语言的视觉文档检索

动态图像分辨率

支持不改变宽高比的动态输入图像分辨率，最大限制为768个图像块

高效检索架构

采用ColBERT风格的多向量表征策略，提高文档检索效率

多模态嵌入

同时处理文本和图像输入，生成联合的多模态嵌入

模型能力

多语言视觉文档检索

文本到图像检索

多模态嵌入生成

动态分辨率图像处理

使用案例

文档检索

多语言PDF文档检索

根据文本查询在多语言PDF文档库中检索相关文档

可高效检索包含视觉内容的文档

视觉问答系统

基于文档图像内容回答用户问题

结合文本和视觉信息提供准确答案

🚀 ColQwen2.5-3b-multilingual-v1.0：基于Qwen2.5-VL-3B-Instruct和ColBERT策略的多语言视觉检索器

ColQwen是一个基于视觉语言模型（VLMs）的新型模型架构和训练策略，可根据文档的视觉特征对其进行高效索引。它是Qwen2.5-VL-3B的扩展，能够生成ColBERT风格的文本和图像多向量表示。该模型在论文ColPali: Efficient Document Retrieval with Vision Language Models中被提出，并首次在此仓库中发布。

这是在8xH100 80GB上训练的基础版本，每个设备的批量大小为128，训练了8个epoch。

✨ 主要特性

版本特性

此模型接受动态图像分辨率作为输入，不会像ColPali那样调整图像大小或改变其纵横比。最大分辨率设置为最多创建768个图像块。实验表明，增加图像块数量可以显著提升性能，但会增加内存需求。

此版本使用colpali-engine==0.3.9进行训练。

支持语言

英语（en）
法语（fr）
西班牙语（es）
意大利语（it）
德语（de）

训练数据集

openbmb/VisRAG-Ret-Train-Synthetic-data
openbmb/VisRAG-Ret-Train-In-domain-data
tsystems/vqa_de_en_batch1
vidore/colpali_train_set
llamaindex/vdr-multilingual-train
Metric-AI/tabfquad_train_set

基础模型

Qwen/Qwen2.5-VL-3B-Instruct

库名称

peft

任务类型

visual-document-retrieval

📦 安装指南

pip install git+https://github.com/illuin-tech/colpali
pip install transformers==4.49.0
pip install flash-attn --no-build-isolation

💻 使用示例

基础用法

import torch
from PIL import Image

from colpali_engine.models import ColQwen2_5, ColQwen2_5_Processor

model = ColQwen2_5.from_pretrained(
        "tsystems/colqwen2.5-3b-multilingual-v1.0",
        torch_dtype=torch.bfloat16,
        device_map="cuda:0",  # or "mps" if on Apple Silicon
    ).eval()
processor = ColQwen2_5_Processor.from_pretrained("tsystems/colqwen2.5-3b-multilingual-v1.0")

# Your inputs
images = [
    Image.new("RGB", (32, 32), color="white"),
    Image.new("RGB", (16, 16), color="black"),
]
queries = [
    "Is attention really all you need?",
    "What is the amount of bananas farmed in Salvador?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

🔧 技术细节

模型训练

参数设置

我们使用低秩适配器（LoRA）对模型进行训练，其中alpha=128，r=128，应用于语言模型的Transformer层以及最终随机初始化的投影层。优化器使用paged_adamw_8bit。

训练环境为8xH100 GPU，采用分布式数据并行（通过accelerate），学习率为2e-4，线性衰减，热身步骤为1%，每个设备的批量大小为128，数据格式为bfloat16。

📚 详细文档

局限性

适用范围：该模型主要针对PDF类型的文档和资源丰富的语言进行优化，可能在其他文档类型或资源较少的语言上表现不佳。
适配性：该模型依赖于基于ColBERT后期交互机制的多向量检索，可能需要一定的工程工作才能适配缺乏原生多向量支持的通用向量检索框架。

📄 许可证

ColQwen2.5的视觉语言主干模型（Qwen2.5-VL）采用apache2.0许可证。模型的适配器采用MIT许可证。

引用

如果您在研究中使用了本组织的模型，请引用以下原始论文：

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}