V

Vit So400m Patch16 Siglip 256.webli I18n

由timm開發
基於SigLIP的視覺Transformer模型,專注於圖像特徵提取,採用原始注意力池化機制。
下載量 15
發布時間 : 12/24/2024

模型概述

該模型是一個視覺Transformer(ViT)架構的圖像編碼器,採用SigLIP(Sigmoid Loss for Language-Image Pre-training)方法進行訓練,適用於多語言場景下的圖像特徵提取任務。

模型特點

SigLIP訓練方法
採用Sigmoid Loss進行語言-圖像預訓練,優化跨模態表示學習。
原始注意力池化
保留原始注意力機制進行特徵池化,增強特徵表示能力。
多語言支持
針對國際化場景優化,支持多語言文本與圖像的關聯學習。

模型能力

圖像特徵提取
跨模態表示學習
多語言圖像理解

使用案例

計算機視覺
圖像檢索
通過提取高質量圖像特徵實現精準的圖像檢索。
提升跨模態檢索的準確率
多語言圖像標註
為圖像生成多語言描述或標籤。
支持多語言環境下的圖像理解
跨模態應用
圖文匹配
判斷圖像與文本描述的相關性。
增強圖文關聯分析的準確性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase