C

Colqwen2.5 V0.1

vidoreによって開発
Qwen2.5-VL-3B-InstructとColBERT戦略に基づく視覚検索モデルで、テキストと画像のマルチベクトル表現を生成し、効率的な文書検索に使用できます。
ダウンロード数 985
リリース時間 : 1/30/2025

モデル概要

ColQwen2.5は視覚言語モデルで、視覚的特徴を用いて文書を効率的にインデックス化し、動的入力画像解像度をサポート、文書検索タスクに適しています。

モデル特徴

動的入力画像解像度
アスペクト比を変更せずに動的入力画像解像度をサポート、最大解像度は最大768画像ブロックまで生成可能です。
マルチベクトル表現
テキストと画像のColBERTスタイルのマルチベクトル表現を生成し、検索効率を向上させます。
効率的なトレーニング
LoRAアダプタとpaged_adamw_8bitオプティマイザを採用、8GPUでデータ並列トレーニング、学習率5e-5、バッチサイズ32。

モデル能力

視覚文書検索
マルチベクトル表現生成
動的画像処理

使用事例

文書検索
学術文献検索
学術文献内の特定コンテンツ(図表データや特定テキスト段落など)を検索するために使用します。
実験により、画像ブロック数を増やすと検索効果が大幅に向上することが示されました。
PDF文書検索
PDF文書から表、図表、テキストコンテンツなどの特定情報を検索します。
ViDoRe評価セットで良好なパフォーマンスを示し、トレーニングセットと重複文書がありません。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase