vit_base_patch16_siglip_gap_224.webli開源圖像編碼器

首頁

Vit Base Patch16 Siglip Gap 224.webli

由timm開發

基於SigLIP的視覺Transformer模型，僅包含圖像編碼器部分，採用全局平均池化策略

圖像分類

Transformers

開源協議:Apache-2.0 #SigLIP圖像編碼 #全局平均池化 #零樣本視覺任務

下載量 178

發布時間 : 12/24/2024

模型概述

該模型是SigLIP框架中的視覺編碼器組件，專為圖像特徵提取設計，適用於需要高效視覺表示的任務

模型特點

SigLIP優化架構

採用SigLIP框架的改進視覺Transformer結構，優化了圖像表示能力

全局平均池化

使用全局平均池化(GAP)替代傳統CLS token，可能提升特徵穩定性

高效特徵提取

專為圖像特徵提取任務優化，輸出緊湊的視覺表示向量

模型能力

圖像特徵提取

視覺表示學習

圖像內容分析

使用案例

計算機視覺

圖像檢索系統

提取圖像特徵用於相似性搜索

高效生成緊湊的圖像表示向量

多模態學習

作為視覺編碼器與其他模態模型配合使用

屬性	詳情
標籤	image-feature-extraction、timm、transformers
庫名稱	timm
許可證	Apache-2.0

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Vit Base Patch16 Siglip Gap 224.webli

模型概述

模型特點

模型能力

使用案例

🚀 vit_base_patch16_siglip_gap_224.webli模型卡

🚀 快速開始

📄 許可證