Colpali開源視覺檢索模型 - 免費部署，高效從視覺特徵索引文檔

首頁

Colpali

由vidore開發

ColPali是基於PaliGemma-3B與ColBERT策略的視覺檢索模型，用於高效地從視覺特徵索引文檔。

文本生成圖像

Safetensors

英語開源協議:MIT #多向量文檔檢索 #視覺語言融合 #PDF內容理解

下載量 12.88k

發布時間 : 6/25/2024

模型概述

ColPali是一種視覺語言模型(VLM)，能夠生成ColBERT風格的多向量文本和圖像表示，用於文檔檢索任務。

模型特點

多向量表示

採用ColBERT策略生成文本和圖像的多向量表示，提高檢索效率

視覺語言融合

結合SigLIP視覺模型和PaliGemma語言模型，實現跨模態理解

高效檢索

通過延遲交互機制計算文本標記與圖像塊之間的交互作用，提升檢索性能

模型能力

視覺文檔檢索

跨模態理解

多向量表示生成

使用案例

文檔檢索

學術文獻檢索

從PDF文檔中檢索相關信息

相比BiPali實現性能的階躍式提升

企業文檔管理

從大量文檔中快速定位相關內容

🚀 ColPali：基於PaliGemma - 3B和ColBERT策略的視覺檢索器

ColPali是一個基於視覺語言模型（VLMs）的新型模型架構和訓練策略的模型，可根據文檔的視覺特徵對其進行高效索引。它是PaliGemma - 3B的擴展，能夠生成ColBERT風格的文本和圖像多向量表示。該模型在論文ColPali: Efficient Document Retrieval with Vision Language Models中被提出，並首次在此倉庫發佈。

✨ 主要特性

基於新穎的模型架構和訓練策略，能根據視覺特徵高效索引文檔。
作為PaliGemma - 3B的擴展，可生成ColBERT風格的多向量表示。

📦 安裝指南

為獲得最佳性能，可使用較新的模型（vidore/colpali - v1.2）

# 此模型檢查點與推理庫的0.1.1版本兼容，但不兼容更新的版本
pip install colpali_engine==0.1.1

💻 使用示例

基礎用法

import torch
import typer
from torch.utils.data import DataLoader
from tqdm import tqdm
from transformers import AutoProcessor
from PIL import Image

from colpali_engine.models.paligemma_colbert_architecture import ColPali
from colpali_engine.trainer.retrieval_evaluator import CustomEvaluator
from colpali_engine.utils.colpali_processing_utils import process_images, process_queries
from colpali_engine.utils.image_from_page_utils import load_from_dataset


def main() -> None:
    """Example script to run inference with ColPali"""

    # Load model
    model_name = "vidore/colpali"
    model = ColPali.from_pretrained("vidore/colpaligemma-3b-mix-448-base", torch_dtype=torch.bfloat16, device_map="cuda").eval()
    model.load_adapter(model_name)
    processor = AutoProcessor.from_pretrained(model_name)

    # select images -> load_from_pdf(<pdf_path>),  load_from_image_urls(["<url_1>"]), load_from_dataset(<path>)
    images = load_from_dataset("vidore/docvqa_test_subsampled")
    queries = ["From which university does James V. Fiorca come ?", "Who is the japanese prime minister?"]

    # run inference - docs
    dataloader = DataLoader(
        images,
        batch_size=4,
        shuffle=False,
        collate_fn=lambda x: process_images(processor, x),
    )
    ds = []
    for batch_doc in tqdm(dataloader):
        with torch.no_grad():
            batch_doc = {k: v.to(model.device) for k, v in batch_doc.items()}
            embeddings_doc = model(**batch_doc)
        ds.extend(list(torch.unbind(embeddings_doc.to("cpu"))))

    # run inference - queries
    dataloader = DataLoader(
        queries,
        batch_size=4,
        shuffle=False,
        collate_fn=lambda x: process_queries(processor, x, Image.new("RGB", (448, 448), (255, 255, 255))),
    )

    qs = []
    for batch_query in dataloader:
        with torch.no_grad():
            batch_query = {k: v.to(model.device) for k, v in batch_query.items()}
            embeddings_query = model(**batch_query)
        qs.extend(list(torch.unbind(embeddings_query.to("cpu"))))

    # run evaluation
    retriever_evaluator = CustomEvaluator(is_multi_vector=True)
    scores = retriever_evaluator.evaluate(qs, ds)
    print(scores.argmax(axis=1))


if __name__ == "__main__":
    typer.run(main)

📚 詳細文檔

模型描述

該模型從現成的SigLIP模型開始迭代構建。我們對其進行微調以創建BiSigLIP，並將SigLIP輸出的圖像塊嵌入輸入到大型語言模型PaliGemma - 3B中，從而創建BiPali。

通過語言模型輸入圖像塊嵌入的一個好處是，它們可以自然地映射到與文本輸入（查詢）相似的潛在空間。這使得我們能夠利用ColBERT策略來計算文本標記和圖像塊之間的交互，與BiPali相比，這能顯著提升性能。

模型訓練

數據集

我們的訓練數據集包含127,460個查詢 - 頁面配對，由公開可用的學術數據集的訓練集（63%）和一個合成數據集組成。合成數據集由網絡爬取的PDF文檔頁面構成，並通過VLM生成（Claude - 3 Sonnet）的偽問題進行擴充（37%）。我們的訓練集在設計上完全使用英語，這使我們能夠研究對非英語語言的零樣本泛化能力。我們明確驗證了沒有多頁PDF文檔同時用於ViDoRe和訓練集中，以防止評估數據受到汙染。我們使用2%的樣本創建了一個驗證集，用於調整超參數。

注意：多語言數據存在於語言模型（Gemma - 2B）的預訓練語料庫中，並且可能在PaliGemma - 3B的多模態訓練過程中出現。

參數

所有模型在訓練集上訓練1個epoch。除非另有說明，我們以bfloat16格式訓練模型，在語言模型的Transformer層以及最終隨機初始化的投影層上使用低秩適配器（LoRA），其中alpha = 32且r = 32，並使用paged_adamw_8bit優化器。我們在8個GPU的設置上進行數據並行訓練，學習率為5e - 5，採用線性衰減，熱身步驟為2.5%，批量大小為32。

侷限性

專注領域：該模型主要專注於PDF類型的文檔和資源豐富的語言，這可能會限制其對其他文檔類型或資源較少語言的泛化能力。
支持情況：該模型依賴於從ColBERT後期交互機制派生的多向量檢索，這可能需要一定的工程工作才能適應缺乏原生多向量支持的廣泛使用的向量檢索框架。

信息表格

屬性	詳情
模型類型	基於視覺語言模型（VLMs）的視覺文檔檢索模型
訓練數據	由公開學術數據集訓練集（63%）和合成數據集（37%）組成，共127,460個查詢 - 頁面配對

聯繫信息

Manuel Faysse：manuel.faysse@illuin.tech
Hugues Sibille：hugues.sibille@illuin.tech
Tony Wu：tony.wu@illuin.tech

引用

如果您在研究中使用了該組織的任何數據集或模型，請按以下方式引用原始數據集：

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}