V

Vit Base Patch16 Siglip 256.webli I18n

由timm開發
基於SigLIP的ViT-B-16視覺Transformer模型,僅包含圖像編碼器,採用原始注意力池化
下載量 16
發布時間 : 12/24/2024

模型概述

該模型是一個視覺Transformer模型,專門用於圖像特徵提取,採用了SigLIP(Sigmoid Loss for Language-Image Pre-training)方法進行訓練,適用於多語言場景下的視覺任務。

模型特點

SigLIP訓練方法
採用Sigmoid Loss進行語言-圖像預訓練,提高了模型在多模態任務中的表現
原始注意力池化
保留了原始的注意力機制進行特徵池化,不引入額外的池化層
多語言支持
模型訓練時考慮了多語言場景,適用於國際化應用
高效圖像編碼
基於ViT架構,能夠高效提取圖像特徵

模型能力

圖像特徵提取
視覺表示學習
多模態任務支持

使用案例

計算機視覺
圖像分類
可作為圖像分類任務的基礎特徵提取器
視覺搜索
用於構建視覺搜索引擎的特徵提取組件
多模態應用
圖文匹配
與文本模型配合實現圖文匹配任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase