S

Siglip So400m Patch16 256 I18n

由google開發
基於SoViT主幹網絡、採用Sigmoid損失函數改進的多模態模型,支持零樣本圖像分類和圖文檢索
下載量 230
發布時間 : 10/21/2024

模型概述

SigLIP是改進CLIP模型的視覺-語言預訓練模型,通過Sigmoid損失函數優化訓練過程,支持更大批次訓練並在小批次場景表現更優

模型特點

Sigmoid損失函數
僅作用於圖像-文本對,無需全局相似度歸一化,支持更大批次訓練
計算最優架構
採用SoViT-400m形狀優化版本,實現計算效率最大化
多語言支持
在256分辨率多語言語料上預訓練,支持國際化應用

模型能力

零樣本圖像分類
圖文檢索
多模態理解

使用案例

內容分類
動物識別
識別圖片中的貓、狗等動物
示例顯示能準確區分貓狗圖像
媒體分析
場景理解
識別圖像中的活動類型(如演奏音樂、體育運動)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase