S

Siglip So400m 14 980 Flash Attn2 Navit

HuggingFaceM4によって開発
SigLIPベースのビジョンモデルで、補間位置埋め込みにより最大解像度を980x980に向上させ、NaViT戦略による可変解像度とアスペクト比維持の画像処理を実現
ダウンロード数 4,153
リリース時間 : 1/30/2024

モデル概要

このモデルはオリジナルのSigLIPビジョンモデルの改良版で、画像処理能力を強化し、より高解像度で柔軟な入力サイズをサポートしながら、オリジナルモデルとの互換性を維持しています。

モデル特徴

高解像度サポート
補間位置埋め込みにより最大解像度を384x384から980x980に向上
NaViT戦略実装
可変解像度画像処理とアスペクト比維持の画像入力をサポート
後方互換性
オリジナルSigLIPモデルと完全互換、patch_attention_maskを指定しない場合の動作はオリジナルモデルと同じ
効率的な注意機構
Flash Attention 2を採用し効率的な計算を実現

モデル能力

高解像度画像処理
可変解像度画像特徴抽出
アスペクト比維持の画像分析
視覚的表現学習

使用事例

コンピュータビジョン
高解像度画像分析
高解像度画像(最大980x980)の特徴抽出処理
より詳細な画像特徴表現を取得
可変サイズ画像処理
異なるサイズと比率の画像入力を処理
サイズ統一なしで特徴抽出可能
マルチモーダル学習
視覚-言語アラインメント
テキストモジュールと組み合わせて画像-テキストマッチングタスクを実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase