ColQwenStella-2b-multilingual開源多語言視覺檢索器

首頁

Colqwenstella 2b Multilingual

由Metric-AI開發

基於Qwen2視覺模型與stella_en_1.5B_v5結合的多語言視覺檢索器，在Vidore基準測試中參數量≤20億的模型中排名第一

文本生成圖像

Safetensors

支持多種語言開源協議:MIT #多語言視覺檢索 #低參高效 #跨模態嵌入

下載量 175

發布時間 : 2/11/2025

模型概述

融合Qwen2模型的視覺組件與stella_en_1.5B_v5作為嵌入模型的多語言視覺文檔檢索模型，支持多種語言和跨模態檢索任務

模型特點

多語言支持

支持英語、法語、西班牙語、意大利語和德語五種語言的視覺文檔檢索

高效訓練

採用LoRA技術進行參數高效微調，在4xA100 GPU上實現高效訓練

高性能

在Vidore基準測試中，參數量≤20億的模型中排名第一，綜合排名第八

多模態融合

結合視覺模型和文本嵌入模型，實現跨模態檢索能力

模型能力

多語言文本理解

視覺文檔分析

跨模態檢索

多模態嵌入

多語言嵌入

使用案例

文檔檢索

跨語言文檔檢索

使用不同語言查詢檢索相關視覺文檔

在Vidore基準測試中表現優異

視覺問答系統

基於文檔圖像的問答系統

企業應用

企業知識庫檢索

從企業文檔庫中檢索相關視覺內容

🚀 ColQwenStella-2b-多語言版：基於Qwen2視覺模型和stella_en_1.5B_v5模型組合的多語言視覺檢索器

ColQwenStella-2b-多語言版模型結合了Qwen2模型的視覺組件和stella_en_1.5B_v5作為嵌入模型。它在Vidore基準測試中表現出色，在參數不超過20億的模型中排名第1，總體排名第8。該模型按照特定的訓練方法進行訓練，為視覺文檔檢索任務提供了強大的支持。

🚀 快速開始

ColQwenStella-2b-多語言版在Vidore基準測試（截至2025年2月11日）中，參數不超過20億的模型裡排名第1，總體排名第8。在Vidore排行榜上報告的分數對應於檢查點1800。這是在4xA100 80GB上訓練的基礎版本，每個設備的批量大小為128，訓練了5個週期。

✨ 主要特性

架構創新：將Qwen2模型的視覺組件與stella_en_1.5B_v5作為嵌入模型相結合。
多語言支持：支持英語、法語、西班牙語、意大利語和德語等多種語言。
優秀性能：在Vidore基準測試中取得了優異的成績。

📦 安裝指南

pip install transformers>=4.46.3

💻 使用示例

基礎用法

import torch
from PIL import Image

from transformers import AutoModel, AutoProcessor

model = AutoModel.from_pretrained(
        "Metric-AI/ColQwenStella-2b-multilingual",
        torch_dtype=torch.bfloat16,
        device_map="cuda:0",  # or "mps" if on Apple Silicon
        trust_remote_code=True
    ).eval()
processor = AutoProcessor.from_pretrained("Metric-AI/ColQwenStella-2b-multilingual", trust_remote_code=True)

# Your inputs
images = [
    Image.new("RGB", (32, 32), color="white"),
    Image.new("RGB", (16, 16), color="black"),
]
queries = [
    "Is attention really all you need?",
    "What is the amount of bananas farmed in Salvador?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

📚 詳細文檔

數據

合成數據：從openbmb/VisRAG-Ret-Train-Synthetic-data數據集中選擇並預處理。
領域內VQA數據集：來自openbmb/VisRAG-Ret-Train-In-domain-data。
Docmatix數據集：從Metric-AI/rag_docmatix_100k數據集中提取。
Colpali數據集：取自vidore/colpali_train_set。
多語言數據集：取自llamaindex/vdr-multilingual-train。

模型訓練

參數

我們使用低秩適配器（LoRA）訓練模型，在語言模型的Transformer層、vison_model.merger的mlp層以及最終隨機初始化的投影層上設置alpha=128和r=128，並使用adamw優化器。我們在4xA100 GPU設置上進行訓練，採用分佈式數據並行（通過accelerate），學習率為5e-4，採用餘弦衰減，有100個熱身步驟，每個設備的批量大小為128，使用bfloat16格式。