C

Colpali V1.3

vidoreによって開発
ColPaliはPaliGemma-3BとColBERT戦略に基づく視覚検索モデルで、文書の視覚的特徴を効率的にインデックス化します
ダウンロード数 96.60k
リリース時間 : 11/8/2024

モデル概要

ColPaliは革新的な視覚言語モデル(VLM)で、PaliGemma-3BとColBERT戦略を組み合わせることで、マルチベクトルのテキストと画像表現を生成し、効率的な文書検索機能を実現します。

モデル特徴

マルチベクトル表現
ColBERT戦略を採用し、テキストトークンと画像ブロック間のマルチベクトル相互作用表現を生成
効率的な検索
視覚言語モデルによる画像ブロック埋め込み処理で、効率的な文書検索を実現
多言語サポート
トレーニングデータは英語ですが、非英語言語に対するゼロショット汎化能力を備えています
改良されたトレーニング戦略
バッチ内ネガティブサンプルと困難なネガティブサンプルマイニング戦略を採用し、ウォームアップステップを延長してトレーニング効果を最適化

モデル能力

視覚的特徴抽出
マルチモーダル表現学習
文書検索
クロスモーダルマッチング

使用事例

文書検索
学術文献検索
大量のPDF文書から関連する学術コンテンツを迅速に検索
従来の方法に比べて性能が飛躍的に向上
企業文書管理
企業が大量の文書を管理し、迅速なコンテンツ検索を実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase