C

Colpali V1.2 Hf

由vidore開發
ColPali是基於PaliGemma-3B與ColBERT策略的視覺檢索模型,用於通過視覺特徵高效索引文檔
下載量 5,075
發布時間 : 11/28/2024

模型概述

ColPali是一種創新的視覺語言模型,通過擴展PaliGemma-3B並採用ColBERT風格的多向量表示策略,能夠高效生成文本與圖像的聯合表示,用於文檔檢索任務。

模型特點

多向量表示
採用ColBERT策略生成文本標記與圖像塊間的交互表示
高效檢索
通過視覺特徵索引文檔,實現高效的文檔檢索
視覺語言聯合建模
結合視覺編碼器(SigLIP)和語言模型(PaliGemma-3B)的優勢
LoRA微調
使用低秩適配器(LoRA)進行高效微調,減少訓練成本

模型能力

視覺文檔檢索
多模態表示學習
跨模態匹配
文檔內容理解

使用案例

文檔管理
企業文檔檢索
根據查詢快速定位公司內部文檔中的相關內容
學術文獻搜索
通過視覺特徵檢索學術論文中的相關信息
知識管理
知識庫構建
為組織構建可檢索的知識庫系統
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase