Sapiens-pretrain-1b-torchscript开源模型 - 聚焦人像视觉任务精准处理

Home

Sapiens Pretrain 1b Torchscript

Developed by facebook

Sapiens是一个在3亿张1024x1024分辨率人类图像上预训练的视觉Transformer家族，专为以人为中心的视觉任务设计。

图像分类 English#高分辨率人像特征提取 #亿级参数视觉Transformer #合成数据泛化

Downloads 35

Release Time : 9/9/2024

Model Overview

Sapiens-1B是一个高分辨率视觉Transformer模型，经过大规模人类图像预训练，适用于特征提取和微调任务，尤其在标注数据稀缺或完全合成的情况下表现出色。

Model Features

高分辨率支持

原生支持1K高分辨率(1024x1024)图像处理

大规模预训练

在3亿张人类图像上进行预训练，具有强大的特征提取能力

真实场景泛化

即使在标注数据稀缺或完全合成的情况下，仍能对真实数据表现出卓越的泛化能力

高效架构

采用40层视觉Transformer架构，具有1536嵌入维度和24个注意力头

Model Capabilities

高分辨率图像处理

人类图像特征提取

视觉表示学习

迁移学习

Use Cases

计算机视觉

人类图像分析

用于人体姿态估计、行为识别等以人为中心的视觉任务

在真实场景中表现出卓越的泛化能力

特征提取

作为预训练模型提取图像特征，用于下游任务

属性	详情
图像尺寸	1024 x 1024
参数数量	11.69亿
浮点运算次数	4.647 TFLOPs
块大小	16 x 16
嵌入维度	1536
层数	40
头数	24
前馈通道数	6144

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Sapiens Pretrain 1b Torchscript

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 Pretrain-Sapiens-1B-Torchscript

🚀 快速开始

✨ 主要特性

📚 详细文档

模型卡片

更多资源

📄 许可证