sapiens-pretrain-0.6b開源模型 - 基於大量人體圖像預訓練，專注以人為中心視覺任務

首頁

Sapiens Pretrain 0.6b

由facebook開發

Sapiens是基於3億張1024×1024分辨率人體圖像預訓練的視覺Transformer模型，擅長以人為中心的視覺任務。

圖像分類英語#高分辨率人體視覺 #合成數據泛化 #1K圖像處理

下載量 13

發布時間 : 9/10/2024

模型概述

6億參數視覺Transformer模型，原生支持1K高分辨率推理，在標註數據稀缺或完全合成的情況下仍能對真實數據展現卓越泛化能力。

模型特點

高分辨率支持

原生支持1024×1024分辨率圖像處理

數據高效

在標註數據稀缺或完全合成數據情況下仍能良好泛化

大規模預訓練

基於3億張人體圖像進行預訓練

模型能力

人體圖像特徵提取

高分辨率圖像處理

視覺表示學習

使用案例

計算機視覺

人體姿態估計

從高分辨率圖像中提取人體姿態特徵

虛擬形象生成

用於生成逼真的數字人形象

🚀 Pretrain-Sapiens-0.6B

Pretrain-Sapiens-0.6B是一個預訓練的視覺變換器模型，在3億張1024 x 1024分辨率的人類圖像上進行訓練。該模型在以人類為中心的視覺任務微調後，能很好地泛化到自然場景中。

🚀 快速開始

Pretrain-Sapiens-0.6B預訓練模型可用於特徵提取、微調，或作為訓練新模型的起點。

✨ 主要特性

Sapiens系列模型在3億張1024 x 1024分辨率的人類圖像上進行預訓練。
預訓練模型在以人類為中心的視覺任務上微調後，能很好地泛化到自然場景中。
Sapiens-0.6B原生支持1K高分辨率推理。
即使在標記數據稀缺或完全合成的情況下，模型對自然數據也有出色的泛化能力。

📚 詳細文檔

模型詳情

Sapiens是一系列視覺變換器模型，在3億張1024 x 1024分辨率的人類圖像上進行預訓練。這些預訓練模型在以人類為中心的視覺任務上進行微調後，能夠很好地泛化到自然場景中。 Sapiens-0.6B原生支持1K高分辨率推理。最終的模型對自然數據表現出顯著的泛化能力，即使標記數據稀缺或完全合成時也是如此。

屬性	詳情
開發者	Meta
模型類型	視覺變換器
許可證	知識共享署名 - 非商業性使用 4.0 國際許可協議
任務	預訓練
格式	原始格式
文件	sapiens_0.6b_epoch_1600_clean.pth