siglip - so400m - 14 - 980 - flash - attn2 - navitオープンソースビジュアルモデル、可変解像度画像処理をサポート

ホーム

Siglip So400m 14 980 Flash Attn2 Navit

HuggingFaceM4によって開発

SigLIPベースのビジョンモデルで、補間位置埋め込みにより最大解像度を980x980に向上させ、NaViT戦略による可変解像度とアスペクト比維持の画像処理を実現

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #可変解像度ビジョン #高解像度画像処理 #アスペクト比の維持

ダウンロード数 4,153

リリース時間 : 1/30/2024

モデル概要

このモデルはオリジナルのSigLIPビジョンモデルの改良版で、画像処理能力を強化し、より高解像度で柔軟な入力サイズをサポートしながら、オリジナルモデルとの互換性を維持しています。

モデル特徴

高解像度サポート

補間位置埋め込みにより最大解像度を384x384から980x980に向上

NaViT戦略実装

可変解像度画像処理とアスペクト比維持の画像入力をサポート

後方互換性

オリジナルSigLIPモデルと完全互換、patch_attention_maskを指定しない場合の動作はオリジナルモデルと同じ

効率的な注意機構

Flash Attention 2を採用し効率的な計算を実現

モデル能力

高解像度画像処理

可変解像度画像特徴抽出

アスペクト比維持の画像分析

視覚的表現学習

使用事例

コンピュータビジョン

高解像度画像分析

高解像度画像（最大980x980）の特徴抽出処理

より詳細な画像特徴表現を取得

可変サイズ画像処理

異なるサイズと比率の画像入力を処理

サイズ統一なしで特徴抽出可能

マルチモーダル学習

視覚-言語アラインメント

テキストモジュールと組み合わせて画像-テキストマッチングタスクを実現

🚀 SiglipVisionModel拡張モデル

このモデルは、https://huggingface.co/HuggingFaceM4/siglip-so400m-14-384-flash-attn2 をベースに、以下の2点の変更を加えたものです。

位置埋め込みを補間することで、最大解像度を 384 x 384 から 980 x 980 に引き上げます。
NaViT の戦略を実装して、a/ 可変解像度の画像、b/ アスペクト比を維持した画像をサポートします。

これらの変更はビジョンタワーにのみ適用され、テキストタワーには変更はありません。実装は https://huggingface.co/HuggingFaceM4/siglip-so400m-14-384-flash-attn2 と完全に後方互換性があります。patch_attention_mask を指定しなければ元のモデルと同じ動作をします。

🚀 クイックスタート

このモデルの基本的な使い方を以下に示します。

💻 使用例

基本的な使用法

import torch
from modeling_siglip import SiglipVisionModel

DEVICE = torch.device("cuda:0")
PATCH_SIZE = 14

pixel_values = torch.randn(2, 3, 28, 42, dtype=torch.bfloat16, device=DEVICE)
pixel_attention_mask = [
    [
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,
        [1] * 14 + [1] * 14  + [1] * 14,

        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
        [0] * 14 + [0] * 14  + [0] * 14,
    ],
    [
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,

        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
        [1] * 14 + [1] * 14  + [0] * 14,
    ],
]
pixel_attention_mask = torch.tensor(pixel_attention_mask, dtype=torch.bool, device=DEVICE)
patches_subgrid = pixel_attention_mask.unfold(
    dimension=1, size=PATCH_SIZE, step=PATCH_SIZE
).unfold(dimension=2, size=PATCH_SIZE, step=PATCH_SIZE)
patch_attention_mask = (patches_subgrid.sum(dim=(-1, -2)) > 0).bool()

model = SiglipVisionModel.from_pretrained("HuggingFaceM4/siglip-so400m-14-980-flash-attn2-navit", _flash_attn_2_enabled=True)
model.train()
model.vision_model.to(DEVICE, dtype=torch.bfloat16)

output = model.vision_model(pixel_values=pixel_values, patch_attention_mask=patch_attention_mask)