Sapiens-depth-2b-torchscript開源人體視覺模型 - 助力人體中心視覺任務，泛化能力強

首頁

Sapiens Depth 2b Torchscript

由facebook開發

Sapiens是基於3億張1024×1024分辨率人體圖像預訓練的視覺Transformer模型，專為人體中心視覺任務設計，具有卓越的泛化能力。

3D視覺英語#人體深度估計 #高分辨率視覺 #合成數據泛化

下載量 58

發布時間 : 9/9/2024

模型概述

該模型用於人體圖像的相對深度估計，原生支持1K高分辨率推理，在標註數據稀缺或完全合成的情況下仍能保持良好性能。

模型特點

高分辨率支持

原生支持1K高分辨率(1024×768)推理

強大的泛化能力

即使在標註數據稀缺或完全合成的情況下，也能展現出對真實數據的卓越泛化能力

大規模預訓練

基於3億張1024×1024分辨率人體圖像預訓練

模型能力

人體圖像深度估計

高分辨率圖像處理

使用案例

計算機視覺

人體深度估計

從單張人體圖像中估計相對深度信息

可生成精確的深度圖

🚀 Depth-Sapiens-2B-Torchscript

本項目的模型能夠基於人類圖像進行相對深度估計，在以人類為中心的視覺任務中表現出色，即使在標記數據稀缺或完全合成的情況下，也能對野外數據實現顯著的泛化。

🚀 快速開始

本模型可直接用於人類圖像的相對深度估計任務，你可以參考下方給出的模型信息，結合實際需求進行使用。

✨ 主要特性

Sapiens 是一系列視覺變換器模型，在 3 億張分辨率為 1024 x 1024 的人類圖像上進行了預訓練。經過微調後，這些預訓練模型在以人類為中心的視覺任務中，能夠很好地適應野外環境。
Sapiens-2B 原生支持 1K 高分辨率推理。即使在標記數據稀缺或完全合成的情況下，得到的模型也能對野外數據展現出出色的泛化能力。

📚 詳細文檔

模型詳情

開發者：Meta
模型類型：視覺變換器
許可證：知識共享署名-非商業性使用 4.0 國際許可協議
任務：深度估計
格式：torchscript
文件：sapiens_2b_render_people_epoch_25_torchscript.pt2

模型卡片

屬性	詳情
圖像尺寸	1024 x 768（高 x 寬）
參數數量	21.63 億
浮點運算次數	8.709 TFLOPs
圖像塊尺寸	16 x 16
嵌入維度	1920
層數	48
頭數	32
前饋通道數	7680

💻 使用示例

基礎用法

本模型可用於人類圖像的相對深度估計，以下是一個簡單的使用思路（實際代碼需根據具體情況編寫）：

# 這裡假設使用 torch 加載模型
import torch

# 加載模型文件
model = torch.jit.load('sapiens_2b_render_people_epoch_25_torchscript.pt2')

# 加載人類圖像（這裡省略圖像加載和預處理代碼）
image = ...

# 進行推理
output = model(image)

# 處理輸出結果
...