C

Colqwen2 V0.1

vidoreによって開発
Qwen2-VL-2B-InstructとColBERT戦略に基づく視覚検索モデルで、視覚的特徴を通じて文書を効率的にインデックス化可能
ダウンロード数 21.25k
リリース時間 : 9/26/2024

モデル概要

ColQwen2は革新的な視覚言語モデルで、Qwen2-VL-2Bアーキテクチャを拡張しColBERT式マルチベクトル表現戦略を採用することで、効率的な視覚的文書検索機能を実現しました。

モデル特徴

動的画像解像度サポート
動的入力画像解像度をサポートしサイズ調整を行わず、最大解像度は最大768画像ブロック生成に設定
マルチベクトル表現
ColBERT式マルチベクトル表現戦略を採用し、テキストと画像のマルチベクトル表現を同時生成可能
効率的な検索
視覚的特徴を通じて文書を効率的にインデックス化、特にPDF類の文書検索に適している
LoRA適応
言語モデルのTransformer層及び投影層に低ランク適応器(LoRA)を適用し、訓練効率を最適化

モデル能力

視覚的文書検索
マルチモーダル表現学習
クロスモーダルマッチング
画像理解
テキスト理解

使用事例

文書検索
学術文献検索
視覚的特徴を通じて学術PDF文書内の関連内容を迅速に検索
企業文書管理
企業内部のPDF文書ライブラリを効率的にインデックス化・管理
クロスモーダル検索
画像テキスト関連検索
テキストクエリで関連画像内容を検索、または画像で関連テキスト記述を検索
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase