Sapiens-depth-1b-bfloat16開源視覺模型 - 免費用於以人為中心的視覺任務

Sapiens Depth 1b Bfloat16

由facebook開發

Sapiens 是一個在3億張1024x1024分辨率的人像圖片上預訓練的視覺Transformer模型，專注於以人為中心的視覺任務。

下載量 37

發布時間 : 9/10/2024

模型概述

該模型用於人像圖像的相對深度估計，支持1K高分辨率推理，在標註數據稀缺或完全合成的情況下仍能展現出對真實數據的卓越泛化能力。

高分辨率支持

原生支持1K高分辨率推理，圖像尺寸可達1024x768。

大規模預訓練

在3億張1024x1024分辨率的人像圖片上進行預訓練。

卓越泛化能力

即使在標註數據稀缺或完全合成的情況下，仍能展現出對真實數據的卓越泛化能力。

人像圖像深度估計

高分辨率圖像處理

計算機視覺

人像深度估計

用於估計人像圖像的相對深度信息。

在真實數據上展現出卓越的泛化能力。

屬性	詳情
開發者	Meta
模型類型	視覺變換器
許可證	知識共享署名-非商業性使用 4.0 國際許可協議
任務	深度估計
格式	bfloat16
文件	sapiens_1b_render_people_epoch_88_bfloat16.pt2