🚀 Depth-Sapiens-0.6B
深度估計模型 Depth-Sapiens-0.6B 基於視覺變換器架構,在3億張高分辨率人類圖像上預訓練,能很好地泛化到實際場景,可用於人類圖像的相對深度估計。
✨ 主要特性
- Sapiens 是一系列視覺變換器模型,在3億張分辨率為1024 x 1024的人類圖像上進行預訓練。針對以人類為中心的視覺任務進行微調後,這些預訓練模型能夠很好地泛化到實際場景中。
- Sapiens-0.6B 原生支持1K高分辨率推理。即使在標記數據稀缺或完全為合成數據的情況下,得到的模型對實際數據也有出色的泛化能力。
📚 詳細文檔
模型詳情
- 開發者:Meta
- 模型類型:視覺變換器
- 許可證:知識共享署名 - 非商業性使用 4.0 國際許可協議
- 任務:深度估計
- 格式:原始格式
- 文件:sapiens_0.6b_render_people_epoch_70.pth
模型信息
屬性 |
詳情 |
圖像尺寸 |
1024 x 768(高 x 寬) |
參數數量 |
6.64億 |
浮點運算次數 |
2.583萬億次浮點運算 |
圖像塊尺寸 |
16 x 16 |
嵌入維度 |
1280 |
層數 |
32 |
頭數 |
16 |
前饋通道數 |
5120 |
更多資源
💻 使用示例
基礎用法
Depth 0.6B 模型可用於估計人類圖像的相對深度。具體代碼實現可能需要參考模型倉庫中的示例代碼。以下是一個可能的使用示例框架:
import torch
model = torch.load('sapiens_0.6b_render_people_epoch_70.pth')
image = torch.randn(1, 3, 1024, 768)
depth_estimation = model(image)
print(depth_estimation)
高級用法
在實際應用中,可能需要對模型進行微調以適應特定的數據集或任務。以下是一個簡單的微調示例框架:
import torch
import torch.nn as nn
import torch.optim as optim
model = torch.load('sapiens_0.6b_render_people_epoch_70.pth')
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
train_data = torch.randn(10, 3, 1024, 768)
train_labels = torch.randn(10, 1, 1024, 768)
for epoch in range(10):
optimizer.zero_grad()
outputs = model(train_data)
loss = criterion(outputs, train_labels)
loss.backward()
optimizer.step()
print(f'Epoch {epoch+1}, Loss: {loss.item()}')
📄 許可證
本模型使用的許可證為知識共享署名 - 非商業性使用 4.0 國際許可協議(Creative Commons Attribution-NonCommercial 4.0)。具體許可條款請參考 https://creativecommons.org/licenses/by-nc/4.0/。