S

Sapiens Pretrain 2b Bfloat16

由facebook開發
Sapiens 是一個基於3億張1024x1024分辨率人類圖像預訓練的視覺Transformer模型家族,支持高分辨率推理和真實場景泛化。
下載量 20
發布時間 : 9/10/2024

模型概述

Sapiens-2B是一個基於視覺Transformer架構的預訓練模型,專門針對以人為中心的視覺任務設計,能夠在標註數據稀缺或完全合成的情況下展現出對真實數據的卓越泛化能力。

模型特點

高分辨率支持
原生支持1024x1024高分辨率圖像處理,適合處理高質量視覺數據。
大規模預訓練
基於3億張人類圖像進行預訓練,具有強大的特徵提取能力。
真實場景泛化
即使在標註數據稀缺或完全合成的情況下,也能展現出對真實數據的卓越泛化能力。
高效計算
採用bfloat16格式,平衡了計算效率和模型精度。

模型能力

高分辨率圖像處理
人類圖像特徵提取
視覺任務微調
真實場景泛化

使用案例

計算機視覺
人體姿態估計
利用預訓練特徵進行人體姿態識別和分析。
人臉識別
基於高分辨率圖像的人臉特徵提取和識別。
增強現實
虛擬形象生成
用於生成逼真的虛擬人物形象。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase