C

Colpali V1.2

vidoreによって開発
ColPaliはPaliGemma-3BとColBERT戦略に基づく視覚言語モデルで、視覚的特徴から効率的に文書をインデックス化します。
ダウンロード数 61.77k
リリース時間 : 8/26/2024

モデル概要

ColPaliは新しいモデルアーキテクチャとトレーニング戦略に基づく視覚言語モデル(VLM)で、効率的な文書検索のためのテキストと画像のColBERTスタイルのマルチベクトル表現を生成できます。

モデル特徴

マルチベクトル表現
ColBERT戦略を使用してテキストトークンと画像ブロック間のマルチベクトル表現を生成し、検索効率を向上させる
反復的構築
SigLIPモデルから始め、微調整してBiSigLIPを作成し、PaliGemma-3Bと組み合わせてBiPaliを構築し、最終的にColPaliを形成する
多言語サポート
トレーニングデータは英語だが、非英語言語に対するゼロショット汎化能力を備えている
最適化されたトレーニング戦略
バッチ内ネガティブサンプルと困難なネガティブサンプルマイニング戦略を採用し、ウォームアップステップを延長して性能低下を減らす

モデル能力

視覚的特徴インデックス
文書検索
マルチモーダル表現学習
クロスモーダル検索

使用事例

文書検索
PDF文書検索
PDF文書からクエリに関連するページを検索する
BiPaliと比較して性能が飛躍的に向上した
学術研究
学術文献検索
学術文献から関連情報を検索する
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase