V

Vit Base Patch16 Siglip 256.webli I18n

Developed by timm
基於SigLIP的ViT-B-16視覺Transformer模型,僅包含圖像編碼器,採用原始注意力池化
Downloads 16
Release Time : 12/24/2024

Model Overview

該模型是一個視覺Transformer模型,專門用於圖像特徵提取,採用了SigLIP(Sigmoid Loss for Language-Image Pre-training)方法進行訓練,適用於多語言場景下的視覺任務。

Model Features

SigLIP訓練方法
採用Sigmoid Loss進行語言-圖像預訓練,提高了模型在多模態任務中的表現
原始注意力池化
保留了原始的注意力機制進行特徵池化,不引入額外的池化層
多語言支持
模型訓練時考慮了多語言場景,適用於國際化應用
高效圖像編碼
基於ViT架構,能夠高效提取圖像特徵

Model Capabilities

圖像特徵提取
視覺表示學習
多模態任務支持

Use Cases

計算機視覺
圖像分類
可作為圖像分類任務的基礎特徵提取器
視覺搜索
用於構建視覺搜索引擎的特徵提取組件
多模態應用
圖文匹配
與文本模型配合實現圖文匹配任務
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase