S

Siglip So400m 14 980 Flash Attn2 Navit

由HuggingFaceM4開發
基於SigLIP的視覺模型,通過插值位置嵌入提升最大分辨率至980x980,並實現NaViT策略支持可變分辨率和保持寬高比的圖像處理
下載量 4,153
發布時間 : 1/30/2024

模型概述

該模型是對原SigLIP視覺模型的改進版本,主要增強了圖像處理能力,支持更高分辨率和更靈活的輸入尺寸,同時保持與原模型的兼容性。

模型特點

高分辨率支持
通過插值位置嵌入將最大分辨率從384x384提升至980x980
NaViT策略實現
支持可變分辨率圖像處理和保持寬高比的圖像輸入
向後兼容
完全兼容原SigLIP模型,不指定patch_attention_mask時行為與原模型一致
高效注意力機制
採用Flash Attention 2實現高效計算

模型能力

高分辨率圖像處理
可變分辨率圖像特徵提取
保持寬高比的圖像分析
視覺表示學習

使用案例

計算機視覺
高分辨率圖像分析
處理高分辨率圖像(最高980x980)的特徵提取
獲得更精細的圖像特徵表示
可變尺寸圖像處理
處理不同尺寸和比例的圖像輸入
無需統一尺寸即可進行特徵提取
多模態學習
視覺-語言對齊
與文本模塊結合實現圖像-文本匹配任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase