siglip - so400m - 14 - 980 - flash - attn2 - navit開源視覺模型，支持可變分辨率圖像處理

首頁

Siglip So400m 14 980 Flash Attn2 Navit

由HuggingFaceM4開發

基於SigLIP的視覺模型，通過插值位置嵌入提升最大分辨率至980x980，並實現NaViT策略支持可變分辨率和保持寬高比的圖像處理

文本生成圖像

Transformers

開源協議:Apache-2.0 #可變分辨率視覺 #高分辨率圖像處理 #保持寬高比

下載量 4,153

發布時間 : 1/30/2024

模型概述

該模型是對原SigLIP視覺模型的改進版本，主要增強了圖像處理能力，支持更高分辨率和更靈活的輸入尺寸，同時保持與原模型的兼容性。

模型特點

高分辨率支持

通過插值位置嵌入將最大分辨率從384x384提升至980x980

NaViT策略實現

支持可變分辨率圖像處理和保持寬高比的圖像輸入

向後兼容

完全兼容原SigLIP模型，不指定patch_attention_mask時行為與原模型一致

高效注意力機制

採用Flash Attention 2實現高效計算

模型能力

高分辨率圖像處理

可變分辨率圖像特徵提取

保持寬高比的圖像分析

視覺表示學習

使用案例

計算機視覺

高分辨率圖像分析

處理高分辨率圖像（最高980x980）的特徵提取

獲得更精細的圖像特徵表示

可變尺寸圖像處理

處理不同尺寸和比例的圖像輸入

無需統一尺寸即可進行特徵提取

多模態學習

視覺-語言對齊

與文本模塊結合實現圖像-文本匹配任務

🚀 Siglip視覺模型改進版

本項目是對https://huggingface.co/HuggingFaceM4/siglip-so400m-14-384-flash-attn2的改進，主要解決了原模型在圖像分辨率和處理不同尺寸圖像方面的侷限性，提升了模型在視覺處理上的靈活性和適用性。

🚀 快速開始

本模型是https://huggingface.co/HuggingFaceM4/siglip-so400m-14-384-flash-attn2的改進版本，主要有以下兩處改動：

通過對位置嵌入進行插值，將最大分辨率提高到 980 x 980（原模型為 384 x 384）。
採用了 NaViT 中的策略，以支持 a/ 可變分辨率的圖像，b/ 保持寬高比的圖像。

這些改動僅應用於視覺塔，文本塔未做任何修改。該實現與 https://huggingface.co/HuggingFaceM4/siglip-so400m-14-384-flash-attn2 完全向後兼容，只需不指定 patch_attention_mask 即可。

💻 使用示例

基礎用法

import torch
from modeling_siglip import SiglipVisionModel

DEVICE = torch.device("cuda:0")
PATCH_SIZE = 14

pixel_values = torch.randn(2, 3, 28, 42, dtype=torch.bfloat16, device=DEVICE)
pixel_attention_mask = [
    [
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,

        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
    ],
    [
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,

        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
    ],
]
pixel_attention_mask = torch.tensor(pixel_attention_mask, dtype=torch.bool, device=DEVICE)
patches_subgrid = pixel_attention_mask.unfold(
    dimension=1, size=PATCH_SIZE, step=PATCH_SIZE
).unfold(dimension=2, size=PATCH_SIZE, step=PATCH_SIZE)
patch_attention_mask = (patches_subgrid.sum(dim=(-1, -2)) > 0).bool()

model = SiglipVisionModel.from_pretrained("HuggingFaceM4/siglip-so400m-14-980-flash-attn2-navit", _flash_attn_2_enabled=True)
model.train()
model.vision_model.to(DEVICE, dtype=torch.bfloat16)

output = model.vision_model(pixel_values=pixel_values, patch_attention_mask=patch_attention_mask)