Colpali-v1.1開源視覺檢索模型 - 免費部署實現文檔從視覺特徵高效索引

首頁

Colpali V1.1

由vidore開發

ColPali是基於PaliGemma-3B與ColBERT策略的視覺檢索模型，用於高效地從視覺特徵中索引文檔。

文本生成圖像

Safetensors

英語開源協議:MIT #視覺文檔檢索 #多向量表示 #PDF文檔處理

下載量 196

發布時間 : 8/21/2024

模型概述

ColPali是一種視覺語言模型（VLM），能夠生成文本和圖像的ColBERT風格多向量表示，主要用於文檔檢索任務。

模型特點

多向量表示

生成文本和圖像的ColBERT風格多向量表示，提高檢索效率。

視覺語言融合

結合SigLIP和PaliGemma-3B的優勢，實現視覺與語言特徵的深度融合。

高效檢索

通過ColBERT策略計算文本標記與圖像塊之間的交互，顯著提升檢索性能。

模型能力

視覺文檔檢索

多模態表示學習

文檔索引

使用案例

文檔檢索

學術文檔檢索

從大量PDF文檔中快速檢索相關信息。

在ViDoRe基準測試中表現優異

企業文檔管理

高效管理和檢索企業內部文檔。

🚀 ColPali：基於PaliGemma - 3B和ColBERT策略的視覺檢索器

ColPali是一個基於視覺語言模型（VLMs）的新型模型架構和訓練策略的模型，可根據文檔的視覺特徵對其進行高效索引。它是PaliGemma - 3B的擴展，能夠生成ColBERT風格的文本和圖像多向量表示。該模型在論文ColPali: Efficient Document Retrieval with Vision Language Models中被提出，並首次在此倉庫中發佈。

✨ 主要特性

基於新穎的模型架構和訓練策略，能從視覺特徵高效索引文檔。
作為PaliGemma - 3B的擴展，可生成ColBERT風格的多向量表示。

📦 安裝指南

文檔未提供具體安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

import torch
import typer
from torch.utils.data import DataLoader
from tqdm import tqdm
from transformers import AutoProcessor
from PIL import Image

from colpali_engine.models.paligemma_colbert_architecture import ColPali
from colpali_engine.trainer.retrieval_evaluator import CustomEvaluator
from colpali_engine.utils.colpali_processing_utils import process_images, process_queries
from colpali_engine.utils.image_from_page_utils import load_from_dataset


def main() -> None:
    """Example script to run inference with ColPali"""

    # Load model
    model_name = "vidore/colpali-v1.1"
    model = ColPali.from_pretrained("vidore/colpaligemma-3b-mix-448-base", torch_dtype=torch.bfloat16, device_map="cuda").eval()
    model.load_adapter(model_name)
    model = model.eval()
    processor = AutoProcessor.from_pretrained(model_name)

    # select images -> load_from_pdf(<pdf_path>),  load_from_image_urls(["<url_1>"]), load_from_dataset(<path>)
    images = load_from_dataset("vidore/docvqa_test_subsampled")
    queries = ["From which university does James V. Fiorca come ?", "Who is the japanese prime minister?"]

    # run inference - docs
    dataloader = DataLoader(
        images,
        batch_size=4,
        shuffle=False,
        collate_fn=lambda x: process_images(processor, x),
    )
    ds = []
    for batch_doc in tqdm(dataloader):
        with torch.no_grad():
            batch_doc = {k: v.to(model.device) for k, v in batch_doc.items()}
            embeddings_doc = model(**batch_doc)
        ds.extend(list(torch.unbind(embeddings_doc.to("cpu"))))

    # run inference - queries
    dataloader = DataLoader(
        queries,
        batch_size=4,
        shuffle=False,
        collate_fn=lambda x: process_queries(processor, x, Image.new("RGB", (448, 448), (255, 255, 255))),
    )

    qs = []
    for batch_query in dataloader:
        with torch.no_grad():
            batch_query = {k: v.to(model.device) for k, v in batch_query.items()}
            embeddings_query = model(**batch_query)
        qs.extend(list(torch.unbind(embeddings_query.to("cpu"))))

    # run evaluation
    retriever_evaluator = CustomEvaluator(is_multi_vector=True)
    scores = retriever_evaluator.evaluate(qs, ds)
    print(scores.argmax(axis=1))


if __name__ == "__main__":
    typer.run(main)

高級用法

# 若需要從該適配器進一步訓練ColPali，應運行以下代碼
lora_config = LoraConfig.from_pretrained("vidore/colpali-v1.1")
lora_config.inference_mode = False  # force training mode for fine-tuning

model = get_peft_model(model, lora_config)

print("after")
model.print_trainable_parameters()

📚 詳細文檔

版本特性

此版本使用colpali - engine==0.2.0進行訓練。與colpali相比，該版本在查詢編碼時使用右填充進行訓練，以修復查詢編碼中不需要的標記。它還基於修復後的vidore/colpaligemma - 3b - mix - 448 - base，以保證投影層初始化的確定性。數據與論文中描述的ColPali數據相同。

模型描述

該模型從現成的SigLIP模型開始迭代構建。我們對其進行微調以創建BiSigLIP，並將SigLIP輸出的圖像塊嵌入輸入到大型語言模型PaliGemma - 3B中，以創建BiPali。

通過語言模型輸入圖像塊嵌入的一個好處是，它們可以自然地映射到與文本輸入（查詢）相似的潛在空間。這使得可以利用ColBERT策略來計算文本標記和圖像塊之間的交互，與BiPali相比，性能有了顯著提升。

模型訓練

數據集

我們的訓練數據集包含127,460個查詢 - 頁面對，由公開可用的學術數據集的訓練集（63%）和一個合成數據集組成，合成數據集由網絡爬取的PDF文檔頁面組成，並使用VLM生成的（Claude - 3 Sonnet）偽問題進行擴充（37%）。我們的訓練集在設計上完全是英文的，這使我們能夠研究對非英語語言的零樣本泛化能力。我們明確驗證了沒有多頁PDF文檔同時用於ViDoRe和訓練集中，以防止評估汙染。使用2%的樣本創建了一個驗證集，用於調整超參數。

注意：多語言數據存在於語言模型（Gemma - 2B）的預訓練語料庫中，並且可能在PaliGemma - 3B的多模態訓練期間出現。

參數

所有模型在訓練集上訓練1個epoch。除非另有說明，我們以bfloat16格式訓練模型，在語言模型的Transformer層以及最終隨機初始化的投影層上使用低秩適配器（LoRA），其中alpha = 32和r = 32，並使用paged_adamw_8bit優化器。我們在8個GPU的設置上進行數據並行訓練，學習率為5e - 5，採用線性衰減，熱身步驟為2.5%，批量大小為32。

侷限性

適用範圍：該模型主要專注於PDF類型的文檔和資源豐富的語言，可能限制其對其他文檔類型或代表性不足語言的泛化能力。
適配難度：該模型依賴於從ColBERT後期交互機制派生的多向量檢索，可能需要進行工程努力才能適應缺乏原生多向量支持的廣泛使用的向量檢索框架。

信息表格

屬性	詳情
模型類型	基於視覺語言模型（VLMs）的視覺文檔檢索模型
訓練數據	由公開學術數據集訓練集（63%）和合成數據集（37%）組成，合成數據集包含網絡爬取的PDF文檔頁面和VLM生成的偽問題

聯繫信息

Manuel Faysse：manuel.faysse@illuin.tech
Hugues Sibille：hugues.sibille@illuin.tech
Tony Wu：tony.wu@illuin.tech

🔧 技術細節

文檔未提供更詳細的技術實現細節，故跳過此章節。

📄 許可證

ColPali的視覺語言主幹模型（PaliGemma）根據其模型卡片中的規定，遵循gemma許可證。附加到模型上的適配器遵循MIT許可證。

引用

如果您在研究中使用了該組織的任何數據集或模型，請按以下方式引用原始數據集：

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}