C

Colpali V1.2

由vidore開發
ColPali是基於PaliGemma-3B與ColBERT策略的視覺語言模型,用於高效地從視覺特徵中索引文檔。
下載量 61.77k
發布時間 : 8/26/2024

模型概述

ColPali是一種基於新型模型架構和訓練策略的視覺語言模型(VLM),能夠生成文本和圖像的ColBERT風格多向量表示,用於高效文檔檢索。

模型特點

多向量表示
採用ColBERT策略生成文本標記與圖像塊之間的多向量表示,提升檢索效率
迭代式構建
從SigLIP模型開始,通過微調創建BiSigLIP,再結合PaliGemma-3B構建BiPali,最終形成ColPali
多語言支持
雖然訓練數據為英語,但具備對非英語語言的零樣本泛化能力
優化訓練策略
採用批次內負樣本和困難負樣本挖掘策略,延長預熱步數以減少性能下降

模型能力

視覺特徵索引
文檔檢索
多模態表示學習
跨模態檢索

使用案例

文檔檢索
PDF文檔檢索
從PDF文檔中檢索與查詢相關的頁面
相比BiPali實現了性能的階躍式提升
學術研究
學術文獻檢索
從學術文獻中檢索相關信息
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase