S

Sapiens Pretrain 1b Torchscript

由facebook開發
Sapiens是一個在3億張1024x1024分辨率人類圖像上預訓練的視覺Transformer家族,專為以人為中心的視覺任務設計。
下載量 35
發布時間 : 9/9/2024

模型概述

Sapiens-1B是一個高分辨率視覺Transformer模型,經過大規模人類圖像預訓練,適用於特徵提取和微調任務,尤其在標註數據稀缺或完全合成的情況下表現出色。

模型特點

高分辨率支持
原生支持1K高分辨率(1024x1024)圖像處理
大規模預訓練
在3億張人類圖像上進行預訓練,具有強大的特徵提取能力
真實場景泛化
即使在標註數據稀缺或完全合成的情況下,仍能對真實數據表現出卓越的泛化能力
高效架構
採用40層視覺Transformer架構,具有1536嵌入維度和24個注意力頭

模型能力

高分辨率圖像處理
人類圖像特徵提取
視覺表示學習
遷移學習

使用案例

計算機視覺
人類圖像分析
用於人體姿態估計、行為識別等以人為中心的視覺任務
在真實場景中表現出卓越的泛化能力
特徵提取
作為預訓練模型提取圖像特徵,用於下游任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase