オープンソースColQwen2.5 - 7b - multilingual - v1.0モデル - マルチリンガルビジュアル検索、Vidoreベンチマークテストで1位

ホーム

Colqwen2.5 7b Multilingual V1.0

Metric-AIによって開発

Qwen2.5-VL-7B-InstructをベースにColBERT戦略を採用した多言語視覚検索モデルで、Vidoreベンチマークテストで1位を獲得

テキスト生成画像

Safetensors

複数言語対応オープンソースライセンス:MIT #マルチモーダル文書検索 #多言語視覚埋め込み #ColBERT戦略

ダウンロード数 4,699

リリース時間 : 2/11/2025

モデル概要

視覚言語モデル(VLMs)に基づく新しいモデルアーキテクチャとトレーニング戦略で、視覚特徴から効率的に文書をインデックス化し、多言語およびマルチモーダル埋め込みをサポート

モデル特徴

多言語サポート

英語、フランス語、スペイン語、イタリア語、ドイツ語など複数言語をサポート

動的解像度処理

入力画像の動的解像度を受け入れ、アスペクト比を変更せず、最大768画像ブロックをサポート

効率的な検索

ColBERTスタイルの多ベクトル表現を採用し、効率的な文書検索を実現

マルチモーダル埋め込み

テキストと視覚特徴の埋め込み表現を同時にサポート

モデル能力

多言語文書検索

視覚特徴抽出

テキストから視覚検索

マルチモーダル埋め込み

使用事例

文書検索

PDF文書検索

大量のPDF文書から関連内容を迅速に検索

Vidoreベンチマークテストで1位を獲得

言語横断検索

多言語文書検索

複数言語の文書検索をサポート

🚀 ColQwen2.5-7b-multilingual-v1.0: Qwen2.5-VL-7B-InstructをベースにColBERT戦略を用いた多言語ビジュアルリトリーバー

このモデルは、ビジョン言語モデル（VLMs）に基づく新しいモデルアーキテクチャとトレーニング戦略を用いて、ドキュメントをそのビジュアル特徴から効率的にインデックス化します。また、Vidoreベンチマークで1位を獲得しています。

🚀 クイックスタート

このモデルは、4xA100 80GBでper_device_batch_size=64、gradient_accumulation_steps=2、5エポックでトレーニングされたベースバージョンです。

✨ 主な機能

高性能: Vidoreベンチマークで1位を獲得（2025年2月11日現在）。
多言語対応: 英語、フランス語、スペイン語、イタリア語、ドイツ語などの多言語をサポート。
柔軟な入力: 動的な画像解像度を入力として受け付け、リサイズせずに処理。

📦 インストール

ColPaliのインストール

pip install git+https://github.com/illuin-tech/colpali

または

pip install git+https://github.com/illuin-tech/colpali@colqwen2_5

Qwen2.5のインストール

pip install git+https://github.com/huggingface/transformers accelerate

💻 使用例

基本的な使用法

import torch
from PIL import Image

from colpali_engine.models import ColQwen2_5, ColQwen2_5_Processor

model = ColQwen2_5.from_pretrained(
        "Metric-AI/colqwen2.5-3b-multilingual",
        torch_dtype=torch.bfloat16,
        device_map="cuda:0",  # or "mps" if on Apple Silicon
    ).eval()
processor = ColQwen2_5_Processor.from_pretrained("Metric-AI/colqwen2.5-3b-multilingual")

# Your inputs
images = [
    Image.new("RGB", (32, 32), color="white"),
    Image.new("RGB", (16, 16), color="black"),
]
queries = [
    "Is attention really all you need?",
    "What is the amount of bananas farmed in Salvador?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

📚 ドキュメント

バージョンの特異性

このモデルは、動的な画像解像度を入力として受け付け、リサイズせずに処理します。最大解像度は、最大768の画像パッチが作成されるように設定されています。実験によると、画像パッチの数が多いほど性能が向上することがわかっていますが、メモリ要件も増加します。

データセット

合成データ: openbmb/VisRAG-Ret-Train-Synthetic-data データセットから選択・前処理されたもの。
ドメイン内VQAデータセット: openbmb/VisRAG-Ret-Train-In-domain-data から抽出されたもの。
Docmatixデータセット: Metric-AI/rag_docmatix_100k データセットから抽出されたもの。
Colpaliデータセット: vidore/colpali_train_set から取得されたもの。
多言語データセット: llamaindex/vdr-multilingual-train から取得されたもの。

モデルのトレーニング

このモデルは、低ランクアダプター（LoRA）を使用してトレーニングされています。トレーニングパラメータは以下の通りです。

alpha=128
r=128
最適化アルゴリズム: paged_adamw_8bit
学習率: 2e-4
エポック数: 5
バッチサイズ: per_device_batch_size=64
勾配累積ステップ数: 2

制限事項

対象範囲: このモデルは主にPDF形式のドキュメントと高リソース言語に焦点を当てており、他のドキュメントタイプや低リソース言語への汎化能力が制限される可能性があります。
サポート: このモデルは、ColBERTの遅延相互作用メカニズムに基づくマルチベクトル検索に依存しているため、ネイティブのマルチベクトルサポートを持たない一般的なベクトル検索フレームワークに適応させるには、エンジニアリングの努力が必要になる場合があります。

ライセンス

ColQwen2.5のビジョン言語バックボーンモデル（Qwen2.5-VL）は apache2.0 ライセンスの下にあります。モデルに付属するアダプターはMITライセンスの下にあります。

引用

この組織のモデルを研究で使用する場合は、以下のように元の論文を引用してください。

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}