colsmolvlm - v0.1オープンソース視覚検索モデル - 視覚特徴を効率的に利用した文書索引付け

ホーム

Colsmolvlm V0.1

vidoreによって開発

SmolVLM-InstructとColBERT戦略に基づく視覚検索モデルで、視覚的特徴を通じて文書を効率的にインデックス化可能

テキスト生成画像

Safetensors

#文書視覚検索 #マルチベクトル表現 #PDF文書処理

ダウンロード数 1,353

リリース時間 : 11/27/2024

モデル概要

ColSmolVLMは視覚言語モデル（VLM）に基づく新しいアーキテクチャとトレーニング戦略のモデルで、テキストと画像のColBERTスタイルのマルチベクトル表現を生成し、効率的な文書検索に利用可能

モデル特徴

ColBERTスタイルのマルチベクトル表現

テキストと画像のマルチベクトル表現を生成し、検索効率を向上

視覚文書検索

PDF類の文書に特化して最適化された検索能力

LoRAアダプター

低ランクアダプター(LoRA)を使用した効率的なトレーニング

モデル能力

視覚文書検索

マルチモーダル表現学習

クロスモーダルマッチング

使用事例

文書検索

学術文献検索

視覚的特徴を通じて学術PDF文書を検索

企業文書管理

大量のPDF文書を効率的にインデックス化・管理

🚀 ColSmolVLM-v0.1: SmolVLM-InstructとColBERT戦略に基づくビジュアルリトリーバ

このモデルは、バッチサイズ128で3エポック学習させたバージョンです。ColSmolVLMは、ビジュアル言語モデル（VLM）に基づく新しいモデルアーキテクチャと学習戦略を用いて、ドキュメントのビジュアル特徴から効率的にインデックスを作成するモデルです。これはSmolVLMの拡張であり、ColBERT スタイルのテキストと画像のマルチベクトル表現を生成します。このモデルは論文 ColPali: Efficient Document Retrieval with Vision Language Models で紹介され、このリポジトリで最初に公開されました。

このバージョンは、決定論的な射影層の初期化を保証するための未学習のベースバージョンです。

✨ 主な機能

ビジュアル言語モデル（VLM）に基づく新しいアーキテクチャと学習戦略を用いて、ドキュメントのビジュアル特徴から効率的にインデックスを作成します。
SmolVLMの拡張で、ColBERT スタイルのテキストと画像のマルチベクトル表現を生成します。

📦 インストール

colpali-engine をソースからインストールするか、バージョン0.3.5以上（現在のリポジトリのメインブランチ）でインストールしてください。transformers バージョンは4.46.2より大きくする必要があります。

pip install git+https://github.com/illuin-tech/colpali

💻 使用例

基本的な使用法

import torch
from PIL import Image

from colpali_engine.models import ColIdefics3, ColIdefics3Processor

model = ColIdefics3.from_pretrained(
        "vidore/colsmolvlm-v0.1",
        torch_dtype=torch.bfloat16,
        device_map="cuda:0",
        attn_implementation="flash_attention_2" # or eager
    ).eval()
processor = ColIdefics3Processor.from_pretrained("vidore/colsmolvlm-v0.1")

# Your inputs
images = [
    Image.new("RGB", (32, 32), color="white"),
    Image.new("RGB", (16, 16), color="black"),
]
queries = [
    "Is attention really all you need?",
    "What is the amount of bananas farmed in Salvador?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

📚 詳細ドキュメント

バージョンの特異性

このバージョンは colpali-engine==0.3.5（リポジトリのメインブランチ）で学習されています。データは論文で説明されているColPaliデータと同じです。

モデルの学習

データセット

127,460のクエリ-ページペアからなる学習データセットは、公開されている学術データセットのトレインセット（63%）と、ウェブクロールしたPDFドキュメントのページから構成され、VLM生成（Claude-3 Sonnet）の疑似質問で拡張された合成データセット（37%）で構成されています。学習セットは設計上完全に英語であり、非英語言語へのゼロショット汎化を研究することができます。評価の汚染を防ぐために、ViDoRe と学習セットの両方でマルチページPDFドキュメントが使用されていないことを明示的に検証しています。ハイパーパラメータを調整するために、サンプルの2%で検証セットを作成しています。

注: 多言語データは言語モデルの事前学習コーパスに存在し、ほとんどの場合マルチモーダル学習にも存在します。

パラメータ

特に指定がない限り、モデルを bfloat16 形式で学習し、低ランクアダプター（LoRA）を使用します。alpha=32 および r=32 を言語モデルのトランスフォーマー層と、最後のランダムに初期化された射影層に適用し、paged_adamw_8bit オプティマイザーを使用します。4つのGPUでデータ並列で学習し、学習率は5e-4で線形減衰し、2.5%のウォームアップステップを使用し、バッチサイズは32です。

🔧 技術詳細

このモデルは主にPDFタイプのドキュメントと高リソース言語に焦点を当てているため、他のドキュメントタイプや表現が少ない言語への汎化が制限される可能性があります。
このモデルはColBERTの後期相互作用メカニズムに由来するマルチベクトル検索に依存しており、ネイティブのマルチベクトルサポートがない広く使用されているベクトル検索フレームワークに適応するためにはエンジニアリングの努力が必要になる場合があります。

📄 ライセンス

ColQwen2のビジュアル言語バックボーンモデル（Qwen2-VL）は apache2.0 ライセンスの下にあります。モデルに付属するアダプターはMITライセンスの下にあります。

📞 お問い合わせ

Manuel Faysse: manuel.faysse@illuin.tech
Hugues Sibille: hugues.sibille@illuin.tech
Tony Wu: tony.wu@illuin.tech

📚 引用

この組織のデータセットやモデルを研究で使用する場合は、元のデータセットを次のように引用してください。

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}