colqwen2-v1.0オープンソース視覚検索モデル - 無料でデプロイ可能な効率的なインデックスによるドキュメントの視覚特徴処理

ホーム

Colqwen2 V1.0

vidoreによって開発

ColQwen2はQwen2-VL-2B-InstructとColBERT戦略に基づく視覚検索モデルで、文書の視覚的特徴を効率的にインデックス化します。

テキスト生成画像

Safetensors

英語オープンソースライセンス:Apache-2.0 #視覚文書検索 #マルチベクトル表現 #動的解像度処理

ダウンロード数 106.85k

リリース時間 : 11/3/2024

モデル概要

ColQwen2は視覚言語モデル（VLM）で、テキストと画像のColBERTスタイルのマルチベクトル表現を生成し、主に文書検索タスクに使用されます。

モデル特徴

動的入力画像解像度

サイズ調整なしの元のアスペクト比入力をサポート、最大解像度は最大768画像ブロック生成に設定

マルチベクトル表現

ColBERTスタイルのマルチベクトル表現方法を採用し、検索効率を向上

LoRAアダプター

言語モデルのTransformer層と投影層に低ランクアダプター（LoRA）を適用、パラメータはalpha=32とr=32

モデル能力

視覚文書検索

マルチモーダル表現学習

クロスモーダル検索

使用事例

文書検索

学術文献検索

大量のPDF文書から関連する学術文献を検索

検索効率が大幅に向上

企業文書管理

企業内部文書の効率的なインデックス化と検索

文書検索効率が向上

🚀 ColQwen2: Qwen2-VL-2B-Instruct をベースに ColBERT 戦略を用いたビジュアルリトリーバ

このモデルは、バッチサイズを32ではなく256に設定し、5エポックでトレーニングされたベースバージョンで、パッドトークンも更新されています。ColQwen2は、ビジュアル言語モデル（VLM）に基づく新しいモデルアーキテクチャとトレーニング戦略を用いて、文書のビジュアル特徴から効率的にインデックスを作成するモデルです。これはQwen2-VL-2Bの拡張で、ColBERTスタイルのテキストと画像のマルチベクトル表現を生成します。このモデルは論文ColPali: Efficient Document Retrieval with Vision Language Modelsで紹介され、このリポジトリで最初に公開されました。

🚀 クイックスタート

ColQwen2は、ビジュアル言語モデル（VLM）に基づく新しいアーキテクチャとトレーニング戦略を用いて、文書のビジュアル特徴から効率的にインデックスを作成することができます。

✨ 主な機能

動的な画像解像度を入力として受け付け、アスペクト比を変更せずに処理することができます。
ColBERTスタイルのマルチベクトル表現を生成し、効率的な文書検索を可能にします。
公開されている学術データセットと合成データセットを用いてトレーニングされています。

📦 インストール

colpali-engine をソースからインストールするか、バージョン0.3.4以上を使用する必要があります。transformers のバージョンは4.46.1より大きい必要があります。

pip install git+https://github.com/illuin-tech/colpali

💻 使用例

基本的な使用法

import torch
from PIL import Image
from transformers.utils.import_utils import is_flash_attn_2_available

from colpali_engine.models import ColQwen2, ColQwen2Processor

model = ColQwen2.from_pretrained(
    "vidore/colqwen2-v1.0",
    torch_dtype=torch.bfloat16,
    device_map="cuda:0",  # or "mps" if on Apple Silicon
    attn_implementation="flash_attention_2" if is_flash_attn_2_available() else None,
).eval()
processor = ColQwen2Processor.from_pretrained("vidore/colqwen2-v1.0")

# Your inputs
images = [
    Image.new("RGB", (128, 128), color="white"),
    Image.new("RGB", (64, 32), color="black"),
]
queries = [
    "Is attention really all you need?",
    "What is the amount of bananas farmed in Salvador?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

📚 ドキュメント

バージョンの特異性

このモデルは、入力として動的な画像解像度を受け付け、ColPaliのようにアスペクト比を変更せずに画像をリサイズしません。最大解像度は、最大768個の画像パッチが作成されるように設定されています。実験によると、画像パッチの数を増やすと、メモリ要件は増えますが、性能が明らかに向上します。このバージョンは colpali-engine==0.3.1 でトレーニングされています。データは、論文で説明されているColPaliのデータと同じです。

モデルのトレーニング

データセット

トレーニングデータセットは127,460のクエリ - ページペアで構成されており、公開されている学術データセットのトレーニングセット（63％）と、ウェブクロールしたPDF文書のページから構成され、VLM（Claude - 3 Sonnet）で生成された疑似質問で拡張された合成データセット（37％）で構成されています。トレーニングセットは英語のみで構成されており、非英語言語へのゼロショット汎化を研究することができます。評価の汚染を防ぐために、ViDoRe とトレーニングセットの両方でマルチページPDF文書が使用されていないことを明示的に確認しています。ハイパーパラメータを調整するために、サンプルの2％を検証セットとして使用しています。

注: 多言語データは、言語モデルの事前学習コーパスと、ほとんどの場合、マルチモーダルトレーニングに含まれています。

パラメータ

すべてのモデルは、トレーニングセットで1エポックトレーニングされています。特に指定がない限り、モデルは bfloat16 形式でトレーニングされ、言語モデルのトランスフォーマーレイヤーと、最後にランダムに初期化された投影レイヤーに低ランクアダプター (LoRA) を使用し、alpha = 32 および r = 32 を設定しています。また、paged_adamw_8bit オプティマイザーを使用しています。トレーニングは8GPUの設定でデータ並列で行われ、学習率は5e - 5で、2.5％のウォームアップステップを伴う線形減衰を使用し、バッチサイズは32です。

🔧 技術詳細

このモデルは、ビジュアル言語モデル（VLM）に基づく新しいアーキテクチャとトレーニング戦略を用いて、文書のビジュアル特徴から効率的にインデックスを作成することができます。具体的には、ColBERTスタイルのマルチベクトル表現を生成することで、文書検索の精度を向上させています。

📄 ライセンス

ColQwen2のビジュアル言語バックボーンモデル（Qwen2 - VL）は apache2.0 ライセンスの下で提供されています。モデルに付属するアダプターはMITライセンスの下で提供されています。

🔗 コンタクト

Manuel Faysse: manuel.faysse@illuin.tech
Hugues Sibille: hugues.sibille@illuin.tech
Tony Wu: tony.wu@illuin.tech

📖 引用

この組織のデータセットやモデルを研究で使用する場合は、以下のように元のデータセットを引用してください。

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}

⚠️ 制限事項

焦点: このモデルは主にPDF形式の文書と高リソース言語に焦点を当てているため、他の文書タイプや低リソース言語への汎化能力が制限される可能性があります。
サポート: このモデルはColBERTの後期相互作用メカニズムに基づくマルチベクトル検索に依存しているため、ネイティブなマルチベクトルサポートがない一般的なベクトル検索フレームワークに適応させるにはエンジニアリングの努力が必要になる場合があります。