S

Sapiens Depth 2b Bfloat16

由facebook開發
Sapiens-2B是基於3億張高分辨率人體圖像預訓練的視覺Transformer模型,專門針對人體深度估計任務優化,支持1K分辨率推理並具有優秀的真實場景泛化能力。
下載量 17
發布時間 : 9/10/2024

模型概述

該模型是Meta開發的21億參數視覺Transformer,用於人體圖像的相對深度估計任務,在合成數據和真實數據場景下均表現優異。

模型特點

高分辨率支持
原生支持1024×1024分辨率輸入,最高可處理1024×768尺寸的人體圖像
合成數據泛化
即使在完全使用合成數據訓練的情況下,仍能保持對真實場景數據的優秀泛化能力
高效計算
採用bfloat16數據格式優化,計算量達8.709萬億次浮點運算

模型能力

人體深度估計
高分辨率圖像處理
合成數據到真實場景的遷移學習

使用案例

虛擬現實
3D人體建模
從單張圖像生成人體深度信息用於3D建模
可生成精確的相對深度圖
影視特效
深度感知特效
為影視後期製作提供人體深度信息
支持更真實的景深效果和虛擬場景融合
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase