# 視覚文書検索

Biqwen2 V0.1
Apache-2.0
BiQwen2はQwen2-VL-2B-InstructとColBERT戦略に基づく視覚検索モデルで、効率的な視覚文書検索に特化しています。
テキスト生成画像 Safetensors 英語
B
vidore
460
0
Nomic Embed Multimodal 3b
Nomic Embed Multimodal 3Bは最先端のマルチモーダル埋め込みモデルで、視覚文書検索タスクに特化しており、統一テキスト-画像エンコーディングをサポートし、Vidore-v2テストで58.8 NDCG@5という卓越した性能を達成しました。
テキスト生成画像 複数言語対応
N
nomic-ai
3,431
11
Colnomic Embed Multimodal 3b
ColNomic Embedマルチモーダル3Bは30億パラメータのマルチモーダル埋め込みモデルで、視覚文書検索タスク向けに設計されており、多言語テキストと画像の統一エンコーディングをサポートします。
マルチモーダル融合 複数言語対応
C
nomic-ai
4,636
17
Colsmol 500M
MIT
SmolVLM-Instruct-500MとColBERT戦略に基づく視覚検索モデルで、視覚的特徴を通じて文書を効率的にインデックス化可能
テキスト生成画像 英語
C
vidore
1,807
17
Colqwen2 V1.0
Apache-2.0
ColQwen2はQwen2-VL-2B-InstructとColBERT戦略に基づく視覚検索モデルで、文書の視覚的特徴を効率的にインデックス化します。
テキスト生成画像 英語
C
vidore
106.85k
86
Dse Qwen2 2b Mrl V1
Apache-2.0
DSE-QWen2-2b-MRL-V1 は、文書スクリーンショットを密なベクトルにエンコードして文書検索を実現するために設計されたデュアルエンコーダーモデルです。
マルチモーダル融合 複数言語対応
D
MrLight
4,447
56
Colpali V1.2
MIT
ColPaliはPaliGemma-3BとColBERT戦略に基づく視覚言語モデルで、視覚的特徴から効率的に文書をインデックス化します。
テキスト生成画像 英語
C
vidore
61.77k
108
Colpali V1.1
MIT
ColPaliはPaliGemma-3BとColBERT戦略に基づく視覚検索モデルで、視覚特徴から効率的に文書をインデックス化します。
テキスト生成画像 Safetensors 英語
C
vidore
196
2
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase