colqwen2-v1.0-hfオープンソースビジュアル検索モデル - 無料でテキストと画像の多ベクトル表現を生成

ホーム

Colqwen2 V1.0 Hf

vidoreによって開発

Qwen2-VL-2B-InstructとColBERT戦略に基づく視覚検索モデルで、テキストと画像のマルチベクトル表現を生成可能

テキスト生成画像

Transformers

英語オープンソースライセンス:Apache-2.0 #文書視覚検索 #マルチベクトル表現 #PDF解析

ダウンロード数 61

リリース時間 : 2/11/2025

モデル概要

ColQwen2は、文書視覚特徴インデックス設計のために特別に開発された新しい視覚言語モデルです。Qwen2-VL-2Bモデルを拡張し、ColBERT式マルチベクトル表現戦略を採用しており、効率的な文書検索タスクに適しています。

モデル特徴

マルチベクトル表現

ColBERT戦略を採用し、テキストと画像のマルチベクトル表現を生成することで検索精度を向上

視覚言語融合

視覚と言語特徴を組み合わせ、クロスモーダル文書検索を実現

効率的な検索

遅延相互作用メカニズムにより検索効率を最適化

モデル能力

文書視覚特徴抽出

クロスモーダル検索

テキスト-画像マッチング

マルチベクトル表現生成

使用事例

文書管理

企業文書検索

社内文書内の特定情報を迅速に検索

文書検索の効率と精度を向上

学術文献検索

大量のPDF論文から関連内容を特定

研究プロセスを加速

ナレッジマネジメント

ナレッジベース構築

ナレッジベースシステムに効率的な検索機能を提供

ナレッジ取得体験を改善

🚀 ColQwen2: Qwen2 - VL - 2B - Instruct をベースにしたColBERT戦略のビジュアルリトリーバ

ColQwen2は、ビジュアル言語モデル（VLM）に基づく新しいモデルアーキテクチャとトレーニング戦略を用いて、ドキュメントのビジュアル特徴から効率的にインデックスを作成するモデルです。これはQwen2 - VL - 2Bの拡張で、ColBERTスタイルのテキストと画像のマルチベクトル表現を生成します。このモデルは論文ColPali: Efficient Document Retrieval with Vision Language Modelsで紹介され、このリポジトリで最初に公開されました。

HuggingFaceのtransformers 🤗 実装は、Tony Wu (@tonywu71) とYoni Gozlan (@yonigozlan) によって貢献されました。

🚀 クイックスタート

重要な注意事項

⚠️ 重要提示

このモデルは実験的なものです。使用する前に、https://github.com/huggingface/transformers/pull/35778 がマージされるのを待ってください！

⚠️ 重要提示

このバージョンのColQwen2は、colpali - engineではなく、transformers 🤗 リリースでロードする必要があります。これは、vidore/colqwen2 - v1.0 - merged チェックポイントからconvert_colqwen2_weights_to_hf.pyスクリプトを使用して変換されました。

モデルの説明

transformers 🤗 のモデルカードを参照してください: https://huggingface.co/docs/transformers/en/model_doc/colqwen2。

モデルのトレーニング

データセット

当社のトレーニングデータセットは127,460のクエリ - ページペアで構成されており、公開されている学術データセットのトレーニングセット（63％）と、ウェブクロールしたPDFドキュメントのページから構成され、VLM生成（Claude - 3 Sonnet）の疑似質問で拡張された合成データセット（37％）で構成されています。当社のトレーニングセットは設計上完全に英語であり、非英語言語へのゼロショット汎化を研究することができます。評価の汚染を防ぐために、ViDoRe とトレーニングセットの両方でマルチページPDFドキュメントが使用されていないことを明示的に検証しています。ハイパーパラメータを調整するために、サンプルの2％で検証セットを作成しています。

使用方法

import torch
from PIL import Image

from transformers import ColQwen2ForRetrieval, ColQwen2Processor
from transformers.utils.import_utils import is_flash_attn_2_available


model_name = "vidore/colqwen2-v1.0-hf"

model = ColQwen2ForRetrieval.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="cuda:0",  # or "mps" if on Apple Silicon
    attn_implementation="flash_attention_2" if is_flash_attn_2_available() else None,
).eval()

processor = ColQwen2Processor.from_pretrained(model_name)

# Your inputs (replace dummy images with screenshots of your documents)
images = [
    Image.new("RGB", (128, 128), color="white"),
    Image.new("RGB", (64, 32), color="black"),
]
queries = [
    "What is the organizational structure for our R&D department?",
    "Can you provide a breakdown of last year’s financial performance?",
]

# Process the inputs
batch_images = processor(images=images).to(model.device)
batch_queries = processor(text=queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images).embeddings
    query_embeddings = model(**batch_queries).embeddings

# Score the queries against the images
scores = processor.score_retrieval(query_embeddings, image_embeddings)

制限事項

焦点: このモデルは主にPDFタイプのドキュメントとリソースの多い言語に焦点を当てているため、他のドキュメントタイプやあまり表現されていない言語への汎化が制限される可能性があります。
サポート: このモデルは、ColBERTの後期相互作用メカニズムに由来するマルチベクトル検索に依存しています。これは、ネイティブのマルチベクトルサポートがない広く使用されているベクトル検索フレームワークに適応させるためにエンジニアリングの努力が必要になる可能性があります。

ライセンス

ColQwen2のビジュアル言語バックボーンモデル（Qwen2 - VL）はapache - 2.0ライセンスの下にあります。ColQwen2はこのapache - 2.0ライセンスを引き継いでいます。

連絡先

Manuel Faysse: manuel.faysse@illuin.tech
Hugues Sibille: hugues.sibille@illuin.tech
Tony Wu: tony.wu@illuin.tech

引用

あなたの研究でこの組織のデータセットやモデルを使用する場合は、元のデータセットを次のように引用してください。

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}

情報テーブル

| 属性 | 详情 |
|------|------|
| ライブラリ名 | transformers |
| タグ | colpali |
| ライセンス | apache - 2.0 |
| データセット | vidore/colpali_train_set |
| 言語 | en |
| ベースモデル | vidore/colqwen2 - base |
| パイプラインタグ | visual - document - retrieval |