Vit Giantopt Patch16 Siglip 384.v2 Webli
基於SigLIP 2的ViT圖像編碼器,專為timm設計,適用於視覺語言任務
Downloads 160
Release Time : 2/21/2025
Model Overview
這是一個基於SigLIP 2架構的視覺變換器(ViT)模型,僅包含圖像編碼器部分。它使用Sigmoid損失函數進行預訓練,適用於各種視覺語言理解任務。
Model Features
SigLIP 2架構
採用改進的SigLIP 2架構,具有增強的語義理解和定位能力
Sigmoid損失函數
使用Sigmoid損失函數進行預訓練,提高了模型性能
高分辨率處理
支持384x384像素的輸入分辨率
Webli數據集預訓練
在Webli大規模數據集上進行預訓練
Model Capabilities
圖像特徵提取
視覺語義理解
圖像定位
Use Cases
視覺語言任務
圖像檢索
基於文本查詢檢索相關圖像
圖像標註
為圖像生成描述性文本
視覺問答
回答關於圖像內容的問題
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 Chinese
R
uer
2,694
98