S

Sapiens Pretrain 1b Bfloat16

facebookによって開発
Sapiensは3億枚の1024×1024解像度人体画像で事前学習されたビジュアルトランスフォーマーモデルで、高解像度推論と実シーン汎化をサポートします。
ダウンロード数 23
リリース時間 : 9/10/2024

モデル概要

このモデルは人間中心の視覚タスク向けに設計された事前学習ビジュアルトランスフォーマーで、注釈データが不足しているか完全に合成された場合でも、実データに対する優れた汎化能力を発揮します。

モデル特徴

高解像度サポート
1024×1024高解像度画像処理をネイティブサポート、パッチサイズは16×16
大規模事前学習
3億枚の人体画像に基づく事前学習で、強力な特徴抽出能力を有する
実シーン汎化
注釈データが不足しているか完全に合成された場合でも、実データに対する優れた汎化能力を発揮
効率的な計算
bfloat16データ形式を採用、計算量は4.647兆回浮動小数点演算

モデル能力

高解像度画像処理
人体画像特徴抽出
視覚表現学習
転移学習

使用事例

コンピュータビジョン
人体姿勢推定
事前学習特徴を利用した人体姿勢認識
注釈データが限定的な場合でも高い精度を維持
バーチャルアバター生成
リアルな人体バーチャルアバター生成に使用
生成結果のリアリティとディテール表現を向上
医療画像
医学画像分析
X線、MRIなどの医学画像の特徴抽出に応用
データが限定的な場合でも価値ある特徴表現を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase