colSmol-256Mオープンソースビジュアルリトリーバー - 無料でデプロイ可能、ビジュアル特徴から効率的にドキュメントを索引付け

ホーム

Colsmol 256M

vidoreによって開発

SmolVLM-Instruct-250MをベースにColBERT戦略を採用した視覚検索器で、視覚特徴から効率的にドキュメントをインデックス化可能

テキスト生成画像

Safetensors

英語オープンソースライセンス:MIT #ドキュメント視覚検索 #ColBERTマルチベクトル #PDFドキュメント処理

ダウンロード数 42.84k

リリース時間 : 1/22/2025

モデル概要

ColSmolVLMは新しいモデルアーキテクチャとトレーニング戦略に基づく視覚言語モデル(VLM)で、効率的なドキュメント検索のためのテキストと画像のColBERTスタイルのマルチベクトル表現を生成可能

モデル特徴

ColBERTスタイルマルチベクトル表現

テキストと画像のマルチベクトル表現を生成可能で、検索効率を向上

効率的な視覚ドキュメント検索

視覚特徴からドキュメントをインデックス化するタスクに特化して最適化

LoRAアダプタートレーニング

低ランクアダプター(LoRA)を使用したトレーニングで、パラメータ効率が高い

モデル能力

視覚ドキュメント検索

マルチモーダル表現学習

クロスモーダルマッチング

使用事例

ドキュメント検索

学術文献検索

大量のPDFドキュメントから関連する学術文献を検索

企業ドキュメント管理

企業の内部ドキュメントライブラリを管理し、必要な情報を迅速に検索

🚀 ColSmolVLM-Instruct-256M: SmolVLM-Instruct-250MベースのColBERT戦略によるビジュアルリトリーバ

このモデルは、Vision Language Models (VLMs)に基づく新しいモデルアーキテクチャとトレーニング戦略を用いて、ドキュメントのビジュアル特徴から効率的にインデックスを作成するためのモデルです。SmolVLMを拡張し、ColBERT スタイルのテキストと画像のマルチベクトル表現を生成します。このモデルは論文 ColPali: Efficient Document Retrieval with Vision Language Models で紹介され、このリポジトリで最初に公開されました。

✨ 主な機能

このバージョンは、Colpaliリポジトリのコミットb983e40（リポジトリのメインブランチ）でトレーニングされています。データは論文で説明されているColPaliデータと同じです。

📦 インストール

colpali-engine をソースからインストールするか、バージョン0.3.5以上でインストールしてください（現在はリポジトリのメインブランチ）。transformers のバージョンは4.46.2より大きい必要があります。

pip install git+https://github.com/illuin-tech/colpali

💻 使用例

基本的な使用法

import torch
from PIL import Image

from colpali_engine.models import ColIdefics3, ColIdefics3Processor

model = ColIdefics3.from_pretrained(
        "vidore/colSmol-256M",
        torch_dtype=torch.bfloat16,
        device_map="cuda:0",
        attn_implementation="flash_attention_2" # or eager
    ).eval()
processor = ColIdefics3Processor.from_pretrained("vidore/colSmol-256M")

# Your inputs
images = [
    Image.new("RGB", (32, 32), color="white"),
    Image.new("RGB", (16, 16), color="black"),
]
queries = [
    "Is attention really all you need?",
    "What is the amount of bananas farmed in Salvador?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

📚 ドキュメント

モデルトレーニング

データセット

127,460のクエリ - ページペアからなるトレーニングデータセットは、公開されている学術データセットのトレーニングセット（63％）と、ウェブクロールしたPDFドキュメントのページから構成され、VLM（Claude-3 Sonnet）で生成された疑似質問で拡張された合成データセット（37％）で構成されています。トレーニングセットは設計上完全に英語であり、非英語言語へのゼロショット汎化を研究することができます。評価の汚染を防ぐために、ViDoRe とトレーニングセットの両方でマルチページPDFドキュメントが使用されていないことを明示的に確認しています。2％のサンプルを使用して検証セットを作成し、ハイパーパラメータを調整しています。

注意: 多言語データは言語モデルの事前学習コーパスに存在し、ほとんどの場合マルチモーダルトレーニングにも存在します。

パラメータ

特に指定がない限り、モデルを bfloat16 形式でトレーニングし、低ランクアダプター (LoRA) を使用します。言語モデルのトランスフォーマーレイヤーと最後のランダムに初期化された投影レイヤーに alpha=32 と r=32 を使用し、paged_adamw_8bit オプティマイザーを使用します。4つのGPUでデータ並列でトレーニングし、学習率は5e-4で線形減衰し、2.5％のウォームアップステップを使用し、バッチサイズは8です。

🔧 技術詳細

制限事項

焦点: このモデルは主にPDFタイプのドキュメントとリソースの多い言語に焦点を当てているため、他のドキュメントタイプや表現が少ない言語への汎化が制限される可能性があります。
サポート: このモデルはColBERTの後期相互作用メカニズムに由来するマルチベクトル検索に依存しているため、ネイティブのマルチベクトルサポートがない一般的なベクトル検索フレームワークに適応させるにはエンジニアリングの努力が必要になる場合があります。

ライセンス

ColQwen2のビジョン言語バックボーンモデル (Qwen2-VL) は apache2.0 ライセンスの下にあります。モデルに付属するアダプターはMITライセンスの下にあります。

連絡先

Manuel Faysse: manuel.faysse@illuin.tech
Hugues Sibille: hugues.sibille@illuin.tech
Tony Wu: tony.wu@illuin.tech

引用

この組織のデータセットやモデルを研究で使用する場合は、元のデータセットを以下のように引用してください。

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}