C

Colqwen2 2b V1.0

tsystemsによって開発
Qwen2-VL-2B-InstructとColBERT戦略に基づく視覚検索モデルで、マルチベクトルのテキストと画像表現を生成可能
ダウンロード数 700
リリース時間 : 12/24/2024

モデル概要

ColQwenは視覚言語モデルの新アーキテクチャで、視覚的特徴による効率的な文書インデックス化を実現、動的解像度画像入力をサポートしアスペクト比を保持

モデル特徴

動的解像度処理
動的解像度画像入力をサポートしサイズ変更せず、最大解像度で1024画像ブロックを生成可能
マルチベクトル表現
ColBERT戦略でテキストと画像のマルチベクトル表現を生成、検索効率を向上
効率的なトレーニング
LoRAアダプターを使用してトレーニング、paged_adamw_8bitオプティマイザーを採用、8xH100 GPUで分散トレーニング

モデル能力

視覚的文書検索
マルチモーダル埋め込み
画像特徴抽出
テキスト特徴抽出

使用事例

文書検索
PDF文書検索
大量のPDF文書から関連内容を迅速に検索
画像ブロック数を増やすと効果が顕著に向上することを実験が示唆
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase