オープンソースDSE-QWen2-2b-MRL-V1モデル - ドキュメントのスクリーンショットをエンコードし、ドキュメントの高速検索を支援

ホーム

Dse Qwen2 2b Mrl V1

MrLightによって開発

DSE-QWen2-2b-MRL-V1 は、文書スクリーンショットを密なベクトルにエンコードして文書検索を実現するために設計されたデュアルエンコーダーモデルです。

マルチモーダル融合

PyTorch

複数言語対応オープンソースライセンス:Apache-2.0 #視覚文書検索 #マルチモーダル埋め込み #レイアウト認識

ダウンロード数 4,447

リリース時間 : 9/11/2024

モデル概要

このモデルは文書スクリーンショット埋め込み（DSE）手法を採用し、元の視覚形式で文書をキャプチャし、テキスト、画像、レイアウトなどのすべての情報を保持し、煩雑な解析や潜在的な情報損失を回避します。テキスト、PDF文書、ウェブページ、スライドの検索に汎用的な埋め込みモデルを提供することを目的としています。

モデル特徴

オリジナル視覚形式処理

文書スクリーンショットを直接処理し、元のレイアウト、テキスト、画像情報を保持

柔軟な表現次元

効果と効率のバランスを取るために出力埋め込み次元の調整をサポート

柔軟な入力サイズ

GPUリソースに応じて入力画像サイズを調整可能

多言語サポート

英語とフランス語の文書処理をサポート

モデル能力

文書スクリーンショット埋め込み

密ベクトル検索

クロスモーダル文書理解

多言語文書処理

使用事例

文書検索

学術論文検索

論文スクリーンショットを通じて関連文献を検索

ViDoREベンチマークで85.8のnDCG@5を達成

企業文書管理

PDF、PPTなどの企業文書を迅速に検索

クロスモーダル検索

テキストと画像の混合検索

文書内のテキストと視覚情報を同時に処理して検索

🚀 DSE-QWen2-2b-MRL-V1

DSE-QWen2-2b-MRL-V1は、ドキュメント検索のためにドキュメントのスクリーンショットを密ベクトルにエンコードするために設計されたバイエンコーダーモデルです。ドキュメントスクリーンショット埋め込み（DSE）アプローチは、ドキュメントを元のビジュアル形式でキャプチャし、テキスト、画像、レイアウトなどのすべての情報を保持するため、面倒な解析と潜在的な情報損失を回避することができます。 DSEは、テキスト、PDFドキュメント、ウェブページ、スライドの検索に汎用的な埋め込みモデルを提供することを目指しています。

例えば、DSE-QWen2-2b-MRL-V1は、ViDoREのリーダーボードで85.8のnDCG@5を達成しています。

🚀 クイックスタート

注意事項

⚠️ 重要提示

入力画像が大きい場合、QWenビジョンエンコーダーは高いGPUメモリを消費する可能性があります。GPUリソースに基づいて'resized_height':680 , 'resized_width':680（下記参照）を調整して、VRAMに適合させてください。

モデルの使用方法

より良い効果と効率のトレードオフをサポートするために、このチェックポイントは以下をサポートするように訓練されています。

柔軟な表現次元
柔軟な入力画像サイズ

💻 使用例

基本的な使用法

モデルとプロセッサーの読み込み

import torch
from transformers import AutoProcessor, Qwen2VLForConditionalGeneration
from qwen_vl_utils import process_vision_info

min_pixels = 1*28*28
max_pixels = 2560*28*28

processor = AutoProcessor.from_pretrained("MrLight/dse-qwen2-2b-mrl-v1", min_pixels=min_pixels, max_pixels=max_pixels)
model = Qwen2VLForConditionalGeneration.from_pretrained('MrLight/dse-qwen2-2b-mrl-v1', attn_implementation="flash_attention_2", torch_dtype=torch.bfloat16).to('cuda:0').eval()
processor.tokenizer.padding_side = "left"
model.padding_side = "left"

def get_embedding(last_hidden_state: torch.Tensor, dimension: int) -> torch.Tensor:
    reps = last_hidden_state[:, -1]
    reps = torch.nn.functional.normalize(reps[:, :dimension], p=2, dim=-1)
    return reps

テキストクエリのエンコード

from PIL import Image
queries = ["Where can we see Llama?", "What is the LLaMA AI model?"]
query_messages = []
for query in queries:
    message = [
        {
            'role': 'user',
            'content': [
                {'type': 'image', 'image': Image.new('RGB', (28, 28)), 'resized_height':1 , 'resized_width':1}, # need a dummy image here for an easier process.
                {'type': 'text', 'text': f'Query: {query}'},
            ]
        }
    ]
    query_messages.append(message)
query_texts = [
    processor.apply_chat_template(msg, tokenize=False, add_generation_prompt=True) + "<|endoftext|>"
    for msg in query_messages
]
query_image_inputs, query_video_inputs = process_vision_info(query_messages)
query_inputs = processor(text=query_texts, images=query_image_inputs, videos=query_video_inputs, padding='longest', return_tensors='pt').to('cuda:0')
cache_position = torch.arange(0, len(query_texts))
query_inputs = model.prepare_inputs_for_generation(**query_inputs, cache_position=cache_position, use_cache=False)
with torch.no_grad():
  output = model(**query_inputs, return_dict=True, output_hidden_states=True)
query_embeddings = get_embedding(output.hidden_states[-1], 1536) # adjust dimensionality for efficiency trade-off, e.g. 512

ドキュメントスクリーンショットのエンコード

import requests
from io import BytesIO

# URLs of the images
url1 = "https://huggingface.co/Tevatron/dse-phi3-docmatix-v2/resolve/main/animal-llama.png"
url2 = "https://huggingface.co/Tevatron/dse-phi3-docmatix-v2/resolve/main/meta-llama.png"

# Download and open images
response1 = requests.get(url1)
response2 = requests.get(url2)

doc_image1 = Image.open(BytesIO(response1.content))
doc_image2 = Image.open(BytesIO(response2.content))

doc_images = [doc_image1, doc_image2]
doc_messages = []
for doc in doc_images:
    message = [
        {
            'role': 'user',
            'content': [
                {'type': 'image', 'image': doc}, #'resized_height':680 , 'resized_width':680} # adjust the image size for efficiency trade-off
                {'type': 'text', 'text': 'What is shown in this image?'}
            ]
        }
    ]
    doc_messages.append(message)
doc_texts = [
    processor.apply_chat_template(msg, tokenize=False, add_generation_prompt=True) + "<|endoftext|>"
    for msg in doc_messages
]
doc_image_inputs, doc_video_inputs = process_vision_info(doc_messages)
doc_inputs = processor(text=doc_texts, images=doc_image_inputs, videos=doc_video_inputs, padding='longest', return_tensors='pt').to('cuda:0')
cache_position = torch.arange(0, len(doc_texts))
doc_inputs = model.prepare_inputs_for_generation(**doc_inputs, cache_position=cache_position, use_cache=False)
with torch.no_grad():
    output = model(**doc_inputs, return_dict=True, output_hidden_states=True)
doc_embeddings = get_embedding(output.hidden_states[-1], 1536) # adjust dimensionality for efficiency trade-off e.g. 512

類似度の計算

from torch.nn.functional import cosine_similarity
num_queries = query_embeddings.size(0)
num_passages = doc_embeddings.size(0)

for i in range(num_queries):
    query_embedding = query_embeddings[i].unsqueeze(0)
    similarities = cosine_similarity(query_embedding, doc_embeddings)
    print(f"Similarities for Query {i+1}: {similarities.cpu().float().numpy()}")

ドキュメントテキストのエンコード

このDSEチェックポイントはTevatron/msmarco-passage-augでウォームアップされているため、モデルはドキュメントをテキスト入力として効果的にエンコードすることもできます。

doc_texts = [
  "The llama (/ˈlɑːmə/; Spanish pronunciation: [ˈʎama] or [ˈʝama]) (Lama glama) is a domesticated South American camelid, widely used as a meat and pack animal by Andean cultures since the pre-Columbian era.",
  "Llama (acronym for Large Language Model Meta AI, and formerly stylized as LLaMA) is a family of autoregressive large language models (LLMs) released by Meta AI starting in February 2023.[2][3] The latest version is Llama 3.1, released in July 2024.[4]"
]
doc_messages = []
for doc in doc_texts:
    message = [
        {
            'role': 'user',
            'content': [
                {'type': 'image', 'image': Image.new('RGB', (28, 28)), 'resized_height':1 , 'resized_width':1}, # need a dummy image here for an easier process.
                {'type': 'text', 'text': f'Document: {doc}'}
            ]
        }
    ]
    doc_messages.append(message)
doc_texts = [
    processor.apply_chat_template(msg, tokenize=False, add_generation_prompt=True) + "<|endoftext|>"
    for msg in doc_messages
]
doc_image_inputs, doc_video_inputs = process_vision_info(doc_messages)
doc_inputs = processor(text=doc_texts, images=doc_image_inputs, videos=doc_video_inputs, padding='longest', return_tensors='pt').to('cuda:0')
cache_position = torch.arange(0, len(doc_texts))
doc_inputs = model.prepare_inputs_for_generation(**doc_inputs, cache_position=cache_position, use_cache=False)
with torch.no_grad():
    output = model(**doc_inputs, return_dict=True, output_hidden_states=True)
doc_embeddings = get_embedding(output.hidden_states[-1], 1536) # adjust dimensionality for efficiency trade-off e.g. 512

for i in range(num_queries):
    query_embedding = query_embeddings[i].unsqueeze(0)
    similarities = cosine_similarity(query_embedding, doc_embeddings)
    print(f"Similarities for Query {i+1}: {similarities.cpu().float().numpy()}")

引用

このチェックポイントが役立つと思われる場合は、QWen2、Docmatix、ViDoRE、および当社のDSEの研究を引用することを検討してください。

📄 ライセンス

このプロジェクトは、Apache 2.0ライセンスの下でライセンスされています。

📚 ドキュメント

属性	详情
ライブラリ名	Tevatron
モデルタイプ	バイエンコーダーモデル
ベースモデル	Qwen/Qwen2-VL-2B-Instruct
パイプラインタグ	ビジュアルドキュメント検索
学習データセット	Tevatron/docmatix-ir、HuggingFaceM4/Docmatix、Tevatron/msmarco-passage-aug、vidore/colpali_train_set、Tevatron/wiki-ss-nq
言語	英語、フランス語