ColQwen2.5-3b-multilingual-v1.0オープンソース多言語ビジュアルリトリーバー - 無料でデプロイして、効率的な画像検索をサポート！

ホーム

Colqwen2.5 3b Multilingual V1.0

Metric-AIによって開発

Qwen2.5-VL-3B-InstructをベースにColBERT戦略を採用した多言語視覚検索モデルで、Vidoreベンチマークテストで優れた性能を発揮

テキスト生成画像

Safetensors

複数言語対応オープンソースライセンス:MIT #マルチモーダル文書検索 #ColBERTマルチベクトル #動的解像度処理

ダウンロード数 2,475

リリース時間 : 2/11/2025

モデル概要

このモデルはQwen2.5-VL-3Bの拡張版で、ColBERTスタイルのマルチベクトルテキストおよび画像表現を生成し、効率的な視覚文書検索に使用可能

モデル特徴

多言語サポート

英語、フランス語、スペイン語、イタリア語、ドイツ語など多言語の視覚文書検索をサポート

動的解像度処理

元のアスペクト比を変更せずに動的入力画像解像度をサポート、最大解像度は最大768画像ブロック生成に設定

効率的検索アーキテクチャ

ColBERTスタイルのマルチベクトル表現を採用し、効率的な視覚文書検索を実現

高性能

Vidoreベンチマークテストで7Bパラメータ以下のモデルで首位、総合ランキング2位を獲得

モデル能力

多言語視覚文書検索

テキストから画像検索

マルチモーダル埋め込み

クロスランゲージ検索

使用事例

文書検索

多言語PDF文書検索

多言語PDF文書ライブラリから関連文書を検索

Vidoreベンチマークテストで優れた性能

クロスランゲージ視覚コンテンツ検索

1つの言語クエリで他の言語の視覚コンテンツを検索

🚀 ColQwen2.5-3b-multilingual-v1.0: Qwen2.5-VL-3B-InstructベースのColBERT戦略を用いた多言語ビジュアルリトリーバ

ColQwenは、ビジュアル言語モデル（VLMs）に基づく新しいモデルアーキテクチャとトレーニング戦略を用いて、ビジュアル特徴から効率的にドキュメントをインデックス化するモデルです。このモデルは、Qwen2.5-VL-3Bを拡張し、ColBERTスタイルのテキストと画像のマルチベクトル表現を生成します。このモデルは論文ColPali: Efficient Document Retrieval with Vision Language Modelsで紹介され、このリポジトリで最初に公開されました。

2025年2月11日現在、70億パラメータ未満のモデルでは1位、全体では2位という成績を収めています。報告されたスコアはVidore Leaderboardにあります。

このモデルは4xA100 80GBで、per_device_batch_size=128、gradient_accumulation_steps=2で5エポック学習させたベースバージョンです。

🚀 クイックスタート

ColQwenは、ビジュアル言語モデル（VLMs）に基づく新しいモデルアーキテクチャとトレーニング戦略を用いて、ビジュアル特徴から効率的にドキュメントをインデックス化するモデルです。

✨ 主な機能

ビジュアル言語モデル（VLMs）に基づく新しいモデルアーキテクチャとトレーニング戦略を用いて、ビジュアル特徴から効率的にドキュメントをインデックス化します。
Qwen2.5-VL-3Bを拡張し、ColBERTスタイルのテキストと画像のマルチベクトル表現を生成します。

📦 インストール

colpali-engineがソースからインストールされているか、バージョンが0.3.1より新しいことを確認してください。transformersのバージョンは4.45.0より新しい必要があります。

ColPali

pip install git+https://github.com/illuin-tech/colpali

または

pip install git+https://github.com/illuin-tech/colpali@colqwen2_5

Qwen2.5

Qwen2.5-VLのコードは最新のHugging face transformersに含まれています。以下のコマンドでソースからビルドすることをおすすめします。

pip install git+https://github.com/huggingface/transformers accelerate

そうしないと、以下のエラーが発生する可能性があります。

KeyError: 'qwen2_5_vl'

💻 使用例

基本的な使用法

import torch
from PIL import Image

from colpali_engine.models import ColQwen2_5, ColQwen2_5_Processor

model = ColQwen2_5.from_pretrained(
        "Metric-AI/ColQwen2.5-3b-multilingual-v1.0",
        torch_dtype=torch.bfloat16,
        device_map="cuda:0",  # or "mps" if on Apple Silicon
    ).eval()
processor = ColQwen2_5_Processor.from_pretrained("Metric-AI/ColQwen2.5-3b-multilingual-v1.0")

# Your inputs
images = [
    Image.new("RGB", (32, 32), color="white"),
    Image.new("RGB", (16, 16), color="black"),
]
queries = [
    "Is attention really all you need?",
    "What is the amount of bananas farmed in Salvador?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

📚 ドキュメント

バージョンの特異性

このモデルは動的な画像解像度を入力として受け取り、ColPaliのようにアスペクト比を変えずにリサイズしません。最大解像度は、最大で768個の画像パッチが作成されるように設定されています。実験によると、画像パッチの数が多いほど明らかな改善が見られますが、メモリ要件が増えるというトレードオフがあります。

このバージョンはcolpali-engine==0.3.7で学習されています。

データ

合成データ：openbmb/VisRAG-Ret-Train-Synthetic-dataデータセットから選択され、前処理されています。
ドメイン内VQAデータセット：openbmb/VisRAG-Ret-Train-In-domain-dataから取得されています。
Docmatixデータセット：Metric-AI/rag_docmatix_100kデータセットから抽出されています。
Colpaliデータセット：vidore/colpali_train_setから取得されています。
多言語データセット：llamaindex/vdr-multilingual-trainから取得されています。

モデルの学習

パラメータ

モデルは低ランクアダプター（LoRA）を使用して学習されています。言語モデルのトランスフォーマー層と、最後のランダムに初期化された投影層にalpha=128、r=128を設定し、paged_adamw_8bitオプティマイザーを使用しています。

4xA100 GPUセットアップで分散データ並列（accelerate経由）で学習されています。学習率は2e-4で、1%のウォームアップステップで線形減衰します。デバイスごとのバッチサイズは128、勾配累積ステップは2、bfloat16形式です。

制限事項

焦点：このモデルは主にPDF形式のドキュメントとリソースの多い言語に焦点を当てているため、他のドキュメントタイプやあまり表現されていない言語への汎化能力が制限される可能性があります。
サポート：このモデルはColBERTの後期相互作用メカニズムに由来するマルチベクトル検索に依存しています。これは、ネイティブのマルチベクトルサポートがない一般的なベクトル検索フレームワークに適応させるためにエンジニアリングの努力が必要になる可能性があります。

📄 ライセンス

ColQwen2.5のビジュアル言語バックボーンモデル（Qwen2.5-VL）はapache2.0ライセンスの下にあります。モデルに付属するアダプターはMITライセンスの下にあります。

引用

もしあなたがこの組織のモデルを研究で使用した場合は、以下のように元の論文を引用してください。

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}