オープンソースのビジュアル検索モデルcolqwen2-7b-v1.0 - ビジュアル特徴インデックスドキュメントを効率的に完成させる

ホーム

Colqwen2 7b V1.0

tsystemsによって開発

Qwen2-VL-7B-InstructをベースにColBERT戦略を採用した視覚検索モデルで、効率的な視覚特徴インデックス文書に特化

テキスト生成画像

Safetensors

複数言語対応#マルチモーダル文書検索 #ColBERTベクトル表現 #動的画像解像度

ダウンロード数 172

リリース時間 : 12/30/2024

モデル概要

ColQwenは視覚言語モデルに基づく新しいアーキテクチャで、効率的な文書検索のためのColBERTスタイルのマルチベクトルテキストおよび画像表現を生成可能

モデル特徴

動的画像解像度処理

動的解像度入力をサイズ変更せずに受け入れ、元のアスペクト比を維持し、最大768個の画像パッチを生成

マルチベクトル表現

ColBERTスタイルのマルチベクトルテキストおよび画像表現を採用し、検索効率を向上

LoRA微調整

低ランクアダプタ(LoRA)を使用した効率的な微調整を実施し、言語モデルTransformer層と投影層にalpha=64およびr=64を設定

モデル能力

視覚文書検索

マルチモーダル埋め込み

クロスモーダルマッチング

使用事例

文書検索

PDF文書検索

大量のPDF文書から関連内容を迅速に検索

実験により画像パッチ数の増加が効果を大幅に向上させることが示された

🚀 T-Systems ColQwen2-7B: Qwen2-VL-7B-InstructベースのColBERT戦略による視覚検索モデル

このモデルは、バッチサイズ8x64で5エポック訓練され、更新されたパッドトークンを使用したベースバージョンです。ColQwenは、ビジョン言語モデル（VLM）に基づく新しいモデルアーキテクチャと訓練戦略を用いて、視覚的特徴から文書を効率的にインデックス化するモデルです。これはQwen2-VL-2Bの拡張モデルで、ColBERTスタイルのテキストと画像の多ベクトル表現を生成します。このモデルは論文ColPali: Efficient Document Retrieval with Vision Language Modelsで紹介され、このリポジトリで最初に公開されました。

このバージョンは訓練されていないベースバージョンで、投影層の初期化を決定論的に保証します。

✨ 主な機能

バージョンの特異性

このモデルは動的な画像解像度を入力として受け取り、ColPaliのようにアスペクト比を変えずにリサイズしません。最大解像度は、最大768個の画像パッチが作成されるように設定されています。実験では、画像パッチの数を増やすことで明らかな改善が見られますが、メモリ要件が増加するというトレードオフがあります。

このバージョンはcolpali-engine==0.3.4で訓練されています。データは論文で説明されているColPaliデータと同じです。さらに、ShareGPT4V (https://sharegpt4v.github.io/) データセットを使用して微調整が行われています。

モデルの訓練

パラメータ

モデルの訓練には低ランクアダプター (LoRA) を使用し、言語モデルのトランスフォーマー層と最後のランダムに初期化された投影層に対してalpha=64 と r=64 を設定し、paged_adamw_8bit オプティマイザーを使用します。 8xH100 GPUセットアップで分散データ並列（accelerate経由）を使用し、学習率2e-4で線形減衰、1%のウォームアップステップを使用し、デバイスごとのバッチサイズは64、bfloat16 形式で訓練を行います。

📦 インストール

colpali-engine がソースからインストールされているか、バージョン0.3.4以上であることを確認してください。 transformers バージョンは > 4.46.1 である必要があります。

pip install git+https://github.com/illuin-tech/colpali

💻 使用例

基本的な使用法

import torch
from PIL import Image

from colpali_engine.models import ColQwen2, ColQwen2Processor

model = ColQwen2.from_pretrained(
        "tsystems/colqwen2-7b-v1.0",
        torch_dtype=torch.bfloat16,
        device_map="cuda:0",  # or "mps" if on Apple Silicon
    ).eval()
processor = ColQwen2Processor.from_pretrained("tsystems/colqwen2-7b-v1.0")

# Your inputs
images = [
    Image.new("RGB", (32, 32), color="white"),
    Image.new("RGB", (16, 16), color="black"),
]
queries = [
    "Is attention really all you need?",
    "What is the amount of bananas farmed in Salvador?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

🔧 技術詳細

制限事項

焦点：このモデルは主にPDF形式の文書と高リソース言語に焦点を当てているため、他の文書タイプや表現が少ない言語への汎化性が制限される可能性があります。
サポート：このモデルはColBERTの後期相互作用メカニズムに基づく多ベクトル検索に依存しているため、ネイティブの多ベクトルサポートがない一般的なベクトル検索フレームワークに適応させるにはエンジニアリングの努力が必要になる場合があります。

📄 ライセンス

ColQwen2のビジョン言語バックボーンモデル（Qwen2-VL）は apache2.0 ライセンスの下にあります。この微調整されたアダプターは CC BY NC 4.0ライセンス の下にあります。したがって、現時点ではこのモデルの使用は 研究用途のみ です。

引用

もしあなたがこの組織のモデルを研究で使用する場合は、以下のように元の論文を引用してください。

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}

属性	详情
モデルタイプ	視覚検索モデル
訓練データ	- vidore/colpali_train_set - tattrongvu/sharegpt4v_vqa_200k_batch1
ベースモデル	Qwen/Qwen2-VL-7B-Instruct
タグ	- vidore - multimodal-embedding
ライブラリ名	peft
パイプラインタグ	visual-document-retrieval