Sapiens開源視覺模型 - 基於3億張圖像預訓練，支持高分辨率推理與場景泛化

Home

Sapiens Pretrain 2b Bfloat16

Developed by facebook

Sapiens 是一個基於3億張1024x1024分辨率人類圖像預訓練的視覺Transformer模型家族，支持高分辨率推理和真實場景泛化。

圖像分類 English#高分辨率人像特徵提取 #21億參數視覺Transformer #1024x1024圖像處理

Downloads 20

Release Time : 9/10/2024

Model Overview

Sapiens-2B是一個基於視覺Transformer架構的預訓練模型，專門針對以人為中心的視覺任務設計，能夠在標註數據稀缺或完全合成的情況下展現出對真實數據的卓越泛化能力。

Model Features

高分辨率支持

原生支持1024x1024高分辨率圖像處理，適合處理高質量視覺數據。

大規模預訓練

基於3億張人類圖像進行預訓練，具有強大的特徵提取能力。

真實場景泛化

即使在標註數據稀缺或完全合成的情況下，也能展現出對真實數據的卓越泛化能力。

高效計算

採用bfloat16格式，平衡了計算效率和模型精度。

Model Capabilities

高分辨率圖像處理

人類圖像特徵提取

視覺任務微調

真實場景泛化

Use Cases

計算機視覺

人體姿態估計

利用預訓練特徵進行人體姿態識別和分析。

人臉識別

基於高分辨率圖像的人臉特徵提取和識別。

增強現實

虛擬形象生成

用於生成逼真的虛擬人物形象。

屬性	詳情
圖像尺寸	1024 x 1024
參數數量	21.63億
浮點運算次數	8.709 TFLOPs
塊大小	16 x 16
嵌入維度	1920
層數	48
頭數	32
前饋通道數	7680

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Sapiens Pretrain 2b Bfloat16

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 Pretrain-Sapiens-2B-Bfloat16

🚀 快速開始

✨ 主要特性

📚 詳細文檔

模型詳情

模型卡片

更多資源

📄 許可證