Sapiens-2B開源視覺模型 - 支持1K分辨率人體深度估計，真實場景泛化佳

Sapiens Depth 2b Bfloat16

由facebook開發

Sapiens-2B是基於3億張高分辨率人體圖像預訓練的視覺Transformer模型，專門針對人體深度估計任務優化，支持1K分辨率推理並具有優秀的真實場景泛化能力。

下載量 17

發布時間 : 9/10/2024

模型概述

該模型是Meta開發的21億參數視覺Transformer，用於人體圖像的相對深度估計任務，在合成數據和真實數據場景下均表現優異。

高分辨率支持

原生支持1024×1024分辨率輸入，最高可處理1024×768尺寸的人體圖像

合成數據泛化

即使在完全使用合成數據訓練的情況下，仍能保持對真實場景數據的優秀泛化能力

高效計算

採用bfloat16數據格式優化，計算量達8.709萬億次浮點運算

人體深度估計

高分辨率圖像處理

合成數據到真實場景的遷移學習

虛擬現實

3D人體建模

從單張圖像生成人體深度信息用於3D建模

可生成精確的相對深度圖

影視特效

深度感知特效

為影視後期製作提供人體深度信息

支持更真實的景深效果和虛擬場景融合

屬性	詳情
開發者	Meta
模型類型	視覺變換器
許可證	知識共享署名-非商業性使用 4.0 國際許可協議
任務	深度估計
格式	bfloat16
文件	sapiens_2b_render_people_epoch_25_bfloat16.pt2