オープンソースのSapiens - 0.6bモデル。人間を中心としたビジョンタスクに特化し、識別と処理がより正確です！

ホーム

Sapiens Depth 0.6b

facebookによって開発

Sapiensは3億枚の1024x1024解像度の人間画像で事前学習された視覚Transformerモデルファミリーで、人間中心の視覚タスクに特化しています。

3Dビジョン英語#高解像度深度推定 #人間中心視覚 #1K画像処理

ダウンロード数 19

リリース時間 : 9/10/2024

モデル概要

このモデルは人間画像の相対深度推定に使用され、1K高解像度推論をサポートし、実シーン条件下で優れた性能を発揮します。

モデル特徴

高解像度サポート

1K高解像度推論をネイティブサポートし、1024x1024解像度の人間画像に適しています。

強力な汎化能力

アノテーションデータが不足している場合や完全に合成された場合でも、実データに対する優れた汎化能力を示します。

大規模事前学習

3億枚の人間画像で事前学習されており、強力な特徴抽出能力を備えています。

モデル能力

人間画像深度推定

高解像度画像処理

使用事例

コンピュータビジョン

人体深度推定

人間画像の相対深度情報を推定するために使用され、仮想現実、拡張現実などのシーンに適しています。

実シーン条件下で優れた性能を発揮します

🚀 Depth-Sapiens-0.6B

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を用いて事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整されると、実環境の条件に対して汎化性能を発揮します。

🚀 クイックスタート

Depth-Sapiens-0.6Bモデルは、人間の画像の相対深度を推定するために使用できます。

✨ 主な機能

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を用いて事前学習されています。
事前学習されたモデルは、人間中心のビジョンタスクに微調整されると、実環境の条件に対して汎化性能を発揮します。
Sapiens-0.6Bは、ネイティブで1Kの高解像度推論をサポートしています。
得られたモデルは、ラベル付きデータが不足している場合や完全に合成データの場合でも、実環境のデータに対して顕著な汎化性能を示します。

📚 ドキュメント

モデル詳細

開発元: Meta
モデルタイプ: Vision Transformer
ライセンス: Creative Commons Attribution-NonCommercial 4.0
タスク: 深度推定
形式: オリジナル
ファイル: sapiens_0.6b_render_people_epoch_70.pth

モデルカード

属性	詳情
画像サイズ	1024 x 768 (H x W)
パラメータ数	0.664 B
FLOPs	2.583 TFLOPs
パッチサイズ	16 x 16
埋め込み次元数	1280
レイヤー数	32
ヘッド数	16
フィードフォワードチャネル数	5120

その他のリソース

リポジトリ: https://github.com/facebookresearch/sapiens
論文: https://arxiv.org/abs/2408.12569
デモ: https://huggingface.co/spaces/facebook/sapiens-depth
プロジェクトページ: https://about.meta.com/realitylabs/codecavatars/sapiens
追加結果: https://rawalkhirodkar.github.io/sapiens
HuggingFaceコレクション: https://huggingface.co/collections/facebook/sapiens-66d22047daa6402d565cb2fc

📄 ライセンス

このモデルは、Creative Commons Attribution-NonCommercial 4.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご