🚀 Depth-Sapiens-0.6B
深度估计模型 Depth-Sapiens-0.6B 基于视觉变换器架构,在3亿张高分辨率人类图像上预训练,能很好地泛化到实际场景,可用于人类图像的相对深度估计。
✨ 主要特性
- Sapiens 是一系列视觉变换器模型,在3亿张分辨率为1024 x 1024的人类图像上进行预训练。针对以人类为中心的视觉任务进行微调后,这些预训练模型能够很好地泛化到实际场景中。
- Sapiens-0.6B 原生支持1K高分辨率推理。即使在标记数据稀缺或完全为合成数据的情况下,得到的模型对实际数据也有出色的泛化能力。
📚 详细文档
模型详情
- 开发者:Meta
- 模型类型:视觉变换器
- 许可证:知识共享署名 - 非商业性使用 4.0 国际许可协议
- 任务:深度估计
- 格式:原始格式
- 文件:sapiens_0.6b_render_people_epoch_70.pth
模型信息
属性 |
详情 |
图像尺寸 |
1024 x 768(高 x 宽) |
参数数量 |
6.64亿 |
浮点运算次数 |
2.583万亿次浮点运算 |
图像块尺寸 |
16 x 16 |
嵌入维度 |
1280 |
层数 |
32 |
头数 |
16 |
前馈通道数 |
5120 |
更多资源
💻 使用示例
基础用法
Depth 0.6B 模型可用于估计人类图像的相对深度。具体代码实现可能需要参考模型仓库中的示例代码。以下是一个可能的使用示例框架:
import torch
model = torch.load('sapiens_0.6b_render_people_epoch_70.pth')
image = torch.randn(1, 3, 1024, 768)
depth_estimation = model(image)
print(depth_estimation)
高级用法
在实际应用中,可能需要对模型进行微调以适应特定的数据集或任务。以下是一个简单的微调示例框架:
import torch
import torch.nn as nn
import torch.optim as optim
model = torch.load('sapiens_0.6b_render_people_epoch_70.pth')
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
train_data = torch.randn(10, 3, 1024, 768)
train_labels = torch.randn(10, 1, 1024, 768)
for epoch in range(10):
optimizer.zero_grad()
outputs = model(train_data)
loss = criterion(outputs, train_labels)
loss.backward()
optimizer.step()
print(f'Epoch {epoch+1}, Loss: {loss.item()}')
📄 许可证
本模型使用的许可证为知识共享署名 - 非商业性使用 4.0 国际许可协议(Creative Commons Attribution-NonCommercial 4.0)。具体许可条款请参考 https://creativecommons.org/licenses/by-nc/4.0/。