ColQwenStella - 2bマルチリンガルオープンソース多言語ビジュアル検索ツール

ホーム

Colqwenstella 2b Multilingual

Metric-AIによって開発

Qwen2視覚モデルとstella_en_1.5B_v5を組み合わせた多言語視覚検索器で、Vidoreベンチマークにおいてパラメータ数≤20億のモデルで1位を獲得

テキスト生成画像

Safetensors

複数言語対応オープンソースライセンス:MIT #多言語視覚検索 #低パラメータ高効率 #クロスモーダル埋め込み

ダウンロード数 175

リリース時間 : 2/11/2025

モデル概要

Qwen2モデルの視覚コンポーネントとstella_en_1.5B_v5を埋め込みモデルとして統合した多言語視覚文書検索モデルで、複数言語とクロスモーダル検索タスクをサポート

モデル特徴

多言語サポート

英語、フランス語、スペイン語、イタリア語、ドイツ語の5言語での視覚文書検索をサポート

効率的なトレーニング

LoRA技術を採用したパラメータ効率的なファインチューニングにより、4xA100 GPUで効率的なトレーニングを実現

高性能

Vidoreベンチマークにおいて、パラメータ数≤20億のモデルで1位、総合ランキング8位を獲得

マルチモーダル融合

視覚モデルとテキスト埋め込みモデルを組み合わせ、クロスモーダル検索能力を実現

モデル能力

多言語テキスト理解

視覚文書分析

クロスモーダル検索

マルチモーダル埋め込み

多言語埋め込み

使用事例

文書検索

クロスランゲージ文書検索

異なる言語のクエリを使用して関連する視覚文書を検索

Vidoreベンチマークで優れた性能を発揮

視覚質問応答システム

文書画像に基づく質問応答システム

企業アプリケーション

企業ナレッジベース検索

企業文書ライブラリから関連する視覚コンテンツを検索

🚀 ColQwenStella-2b-multilingual: Qwen2 Visionとstella_en_1.5B_v5モデルを組み合わせた多言語ビジュアルリトリーバ

このモデルは、Qwen2モデルのビジョンコンポーネントとstella_en_1.5B_v5を埋め込みモデルとして組み合わせたアーキテクチャを持ち、多言語のビジュアルドキュメント検索を効率的に行うことができます。

🚀 クイックスタート

2025年2月11日現在、このモデルはパラメータが2B以下のモデルの中で1位、Vidoreベンチマーク全体で8位にランクインしています。報告されているスコアはcheckpoint-1800に対応しています。

これは、4xA100 80GBでper_device_batch_size=128、5エポックでトレーニングされたベースバージョンです。

ColQwenStella-2b-multilingualのアーキテクチャは、Qwen2モデルのビジョンコンポーネントとstella_en_1.5B_v5を埋め込みモデルとして組み合わせています。トレーニングはColPali: Efficient Document Retrieval with Vision Language Modelsのレシピに従って行われています。

✨ 主な機能

多言語対応のビジュアルドキュメント検索
Qwen2モデルのビジョンコンポーネントとstella_en_1.5B_v5を組み合わせたアーキテクチャ

📦 インストール

pip install transformers>=4.46.3

💻 使用例

基本的な使用法

import torch
from PIL import Image

from transformers import AutoModel, AutoProcessor

model = AutoModel.from_pretrained(
        "Metric-AI/ColQwenStella-2b-multilingual",
        torch_dtype=torch.bfloat16,
        device_map="cuda:0",  # or "mps" if on Apple Silicon
        trust_remote_code=True
    ).eval()
processor = AutoProcessor.from_pretrained("Metric-AI/ColQwenStella-2b-multilingual", trust_remote_code=True)

# Your inputs
images = [
    Image.new("RGB", (32, 32), color="white"),
    Image.new("RGB", (16, 16), color="black"),
]
queries = [
    "Is attention really all you need?",
    "What is the amount of bananas farmed in Salvador?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

📚 ドキュメント

データ

合成データ：openbmb/VisRAG-Ret-Train-Synthetic-dataデータセットから選択され、前処理されました。
ドメイン内VQAデータセット：openbmb/VisRAG-Ret-Train-In-domain-dataから取得されました。
Docmatixデータセット：Metric-AI/rag_docmatix_100kデータセットから抽出されました。
Colpaliデータセット：vidore/colpali_train_setから取得されました。
多言語データセット：llamaindex/vdr-multilingual-trainから取得されました。

モデルトレーニング

パラメータ

モデルのトレーニングには、低ランクアダプター(LoRA)を使用しています。言語モデルのトランスフォーマーレイヤー、vison_model.mergerのmlpレイヤー、および最後のランダムに初期化された投影レイヤーでalpha=128、r=128を使用し、adamwオプティマイザーを使用しています。

4xA100 GPUセットアップで分散データ並列（accelerate経由）を使用し、学習率5e-4、コサイン減衰、100ウォームアップステップ、デバイスごとのバッチサイズ128、bfloat16形式でトレーニングしています。