S

Sapiens Pretrain 1b Torchscript

Developed by facebook
Sapiens是一个在3亿张1024x1024分辨率人类图像上预训练的视觉Transformer家族,专为以人为中心的视觉任务设计。
Downloads 35
Release Time : 9/9/2024

Model Overview

Sapiens-1B是一个高分辨率视觉Transformer模型,经过大规模人类图像预训练,适用于特征提取和微调任务,尤其在标注数据稀缺或完全合成的情况下表现出色。

Model Features

高分辨率支持
原生支持1K高分辨率(1024x1024)图像处理
大规模预训练
在3亿张人类图像上进行预训练,具有强大的特征提取能力
真实场景泛化
即使在标注数据稀缺或完全合成的情况下,仍能对真实数据表现出卓越的泛化能力
高效架构
采用40层视觉Transformer架构,具有1536嵌入维度和24个注意力头

Model Capabilities

高分辨率图像处理
人类图像特征提取
视觉表示学习
迁移学习

Use Cases

计算机视觉
人类图像分析
用于人体姿态估计、行为识别等以人为中心的视觉任务
在真实场景中表现出卓越的泛化能力
特征提取
作为预训练模型提取图像特征,用于下游任务
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase