colqwen2-7b-v1.0オープンソースビジュアル検索モデル - マルチベクトルテキストと画像表現をサポート

ホーム

Colqwen2 7b V1.0

yydxlvによって開発

Qwen2-VL-7B-InstructとColBERT戦略に基づく視覚検索モデルで、マルチベクトルテキストと画像表現をサポート

テキスト生成画像

Safetensors

英語#マルチモーダル文書検索 #ColBERTベクトル表現 #動的画像解像度

ダウンロード数 25

リリース時間 : 12/24/2024

モデル概要

ColQwenは新しい視覚言語モデルアーキテクチャで、視覚的特徴による文書の効率的なインデックス化が可能で、特にPDF類の文書検索に適している

モデル特徴

動的画像解像度サポート

アスペクト比を変更せずに動的な入力画像解像度をサポートし、最大768個の画像パッチを生成可能

マルチベクトル表現

ColBERTスタイルのマルチベクトルテキストと画像表現を採用し、検索効率を向上

効率的な学習戦略

LoRAアダプターを使用した学習で、計算リソースの使用を最適化

モデル能力

視覚文書検索

マルチモーダル埋め込み

画像特徴抽出

テキスト特徴抽出

使用事例

文書検索

PDF文書検索

視覚的特徴に基づくPDF文書内容検索

文書検索効率の向上

🚀 IEIT-Systems ColQwen2-7B: ColBERT戦略を用いたQwen2-VL-7B-Instructベースのビジュアルリトリーバ

このモデルは、バッチサイズ8x64で5エポック訓練され、更新されたパディングトークンを使用したベースバージョンです。ColQwenは、ビジュアル言語モデル（VLM）に基づく新しいモデルアーキテクチャと訓練戦略を用いて、文書のビジュアル特徴から効率的にインデックスを作成するモデルです。これはQwen2-VL-7Bの拡張モデルで、ColBERTスタイルのテキストと画像のマルチベクトル表現を生成します。このモデルは論文ColPali: Efficient Document Retrieval with Vision Language Modelsで紹介され、このリポジトリで最初に公開されました。

このバージョンは訓練されていないベースバージョンで、投影層の初期化を決定論的に行うことを保証します。

✨ 主な機能

バージョンの特徴

このモデルは、動的な画像解像度を入力として受け取り、ColPaliのようにアスペクト比を変えずにリサイズしません。最大解像度は、最大768個の画像パッチが作成されるように設定されています。実験では、画像パッチの数を増やすと、メモリ要件は増えますが、明らかな改善が見られます。

このバージョンはcolpali-engine==0.3.4で訓練されています。データは論文で説明されているColPaliデータと同じです。さらに、ShareGPT4V (https://sharegpt4v.github.io/) データセットを使って微調整が行われています。

モデルの訓練

パラメータ

低ランクアダプター（LoRA）を使用してモデルを訓練します。言語モデルのトランスフォーマー層と、最後のランダムに初期化された投影層に対して、alpha=32 と r=32 を設定し、paged_adamw_8bit オプティマイザーを使用します。 8台のA100 GPUを用いた分散データ並列（accelerate経由）で訓練し、学習率は5e-4で線形減衰を使用し、1%のウォームアップステップを設定し、デバイスごとのバッチサイズは32、bfloat16 形式で訓練します。

📦 インストール

colpali-engine をソースから、またはバージョン0.3.4以上でインストールしてください。 transformers のバージョンは4.46.1より大きい必要があります。

pip install git+https://github.com/illuin-tech/colpali

💻 使用例

基本的な使用法

import torch
from PIL import Image

from colpali_engine.models import ColQwen2, ColQwen2Processor

model = ColQwen2.from_pretrained(
        "yydxlv/colqwen2-7b-v1.0",
        torch_dtype=torch.bfloat16,
        device_map="cuda:0",  # or "mps" if on Apple Silicon
    ).eval()
processor = ColQwen2Processor.from_pretrained("yydxlv/colqwen2-7b-v1.0")

# Your inputs
images = [
    Image.new("RGB", (32, 32), color="white"),
    Image.new("RGB", (16, 16), color="black"),
]
queries = [
    "Is attention really all you need?",
    "What is the amount of bananas farmed in Salvador?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

📚 ドキュメント

制限事項

対象範囲：このモデルは主にPDF形式の文書と高リソース言語に焦点を当てているため、他の文書タイプや表現が少ない言語への汎化能力が制限される可能性があります。
サポート：このモデルはColBERTの後期相互作用メカニズムに基づくマルチベクトル検索に依存しているため、ネイティブなマルチベクトルサポートがない一般的なベクトル検索フレームワークに適応させるにはエンジニアリングの努力が必要になる場合があります。

ライセンス

ColQwen2のビジュアル言語バックボーンモデル（Qwen2-VL）はapache2.0ライセンスの下にあります。この微調整されたアダプターはCC BY NC 4.0ライセンスの下にあります。したがって、現時点ではモデルの使用は研究目的のみです。

引用

もしあなたがこの組織のモデルを研究で使用する場合は、以下のように元の論文を引用してください。

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}