C

Colqwen2 7b V1.0

tsystemsによって開発
Qwen2-VL-7B-InstructをベースにColBERT戦略を採用した視覚検索モデルで、効率的な視覚特徴インデックス文書に特化
ダウンロード数 172
リリース時間 : 12/30/2024

モデル概要

ColQwenは視覚言語モデルに基づく新しいアーキテクチャで、効率的な文書検索のためのColBERTスタイルのマルチベクトルテキストおよび画像表現を生成可能

モデル特徴

動的画像解像度処理
動的解像度入力をサイズ変更せずに受け入れ、元のアスペクト比を維持し、最大768個の画像パッチを生成
マルチベクトル表現
ColBERTスタイルのマルチベクトルテキストおよび画像表現を採用し、検索効率を向上
LoRA微調整
低ランクアダプタ(LoRA)を使用した効率的な微調整を実施し、言語モデルTransformer層と投影層にalpha=64およびr=64を設定

モデル能力

視覚文書検索
マルチモーダル埋め込み
クロスモーダルマッチング

使用事例

文書検索
PDF文書検索
大量のPDF文書から関連内容を迅速に検索
実験により画像パッチ数の増加が効果を大幅に向上させることが示された
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase