C

Colqwen2 V0.1

Developed by vidore
Qwen2-VL-2B-InstructとColBERT戦略に基づく視覚検索モデルで、視覚的特徴を通じて文書を効率的にインデックス化可能
Downloads 21.25k
Release Time : 9/26/2024

Model Overview

ColQwen2は革新的な視覚言語モデルで、Qwen2-VL-2Bアーキテクチャを拡張しColBERT式マルチベクトル表現戦略を採用することで、効率的な視覚的文書検索機能を実現しました。

Model Features

動的画像解像度サポート
動的入力画像解像度をサポートしサイズ調整を行わず、最大解像度は最大768画像ブロック生成に設定
マルチベクトル表現
ColBERT式マルチベクトル表現戦略を採用し、テキストと画像のマルチベクトル表現を同時生成可能
効率的な検索
視覚的特徴を通じて文書を効率的にインデックス化、特にPDF類の文書検索に適している
LoRA適応
言語モデルのTransformer層及び投影層に低ランク適応器(LoRA)を適用し、訓練効率を最適化

Model Capabilities

視覚的文書検索
マルチモーダル表現学習
クロスモーダルマッチング
画像理解
テキスト理解

Use Cases

文書検索
学術文献検索
視覚的特徴を通じて学術PDF文書内の関連内容を迅速に検索
企業文書管理
企業内部のPDF文書ライブラリを効率的にインデックス化・管理
クロスモーダル検索
画像テキスト関連検索
テキストクエリで関連画像内容を検索、または画像で関連テキスト記述を検索
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase