C

Colpali V1.2 Hf

vidoreによって開発
ColPaliはPaliGemma-3BとColBERT戦略に基づくビジュアル検索モデルで、視覚的特徴を通じてドキュメントを効率的にインデックス化します
ダウンロード数 5,075
リリース時間 : 11/28/2024

モデル概要

ColPaliは革新的なビジュアル言語モデルで、PaliGemma-3Bを拡張しColBERTスタイルのマルチベクトル表現戦略を採用することで、テキストと画像の統合表現を効率的に生成し、ドキュメント検索タスクに活用できます。

モデル特徴

マルチベクトル表現
ColBERT戦略を採用し、テキストトークンと画像ブロック間のインタラクション表現を生成
効率的な検索
視覚的特徴を通じてドキュメントをインデックス化し、効率的なドキュメント検索を実現
ビジュアル言語統合モデリング
ビジュアルエンコーダー(SigLIP)と言語モデル(PaliGemma-3B)の利点を組み合わせ
LoRAファインチューニング
低ランクアダプター(LoRA)を使用した効率的なファインチューニングにより、トレーニングコストを削減

モデル能力

ビジュアルドキュメント検索
マルチモーダル表現学習
クロスモーダルマッチング
ドキュメント内容理解

使用事例

ドキュメント管理
企業ドキュメント検索
クエリに基づき企業内部ドキュメント内の関連コンテンツを迅速に特定
学術文献検索
視覚的特徴を通じて学術論文内の関連情報を検索
ナレッジマネジメント
ナレッジベース構築
組織向けの検索可能なナレッジベースシステムを構築
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase