オープンソースのsapiens - depth - 0.3bビジュアルモデル、人間中心のビジュアルタスクに特化、無料で利用可能！

ホーム

Sapiens Depth 0.3b

facebookによって開発

智人（Sapiens）は30億枚の高解像度人間画像で事前学習された視覚Transformerモデルで、人間中心の視覚タスクに特化しています。

3Dビジョン英語#高解像度深度推定 #人間画像専用 #合成データ汎化

ダウンロード数 24

リリース時間 : 9/10/2024

モデル概要

このモデルは人間画像の相対深度推定に使用され、1K高解像度推論をサポートし、実データに対して優れた汎化能力を持ちます。

モデル特徴

高解像度サポート

1K高解像度推論をネイティブサポートし、1024x768の画像サイズに適しています。

優れた汎化能力

アノテーションデータが不足している場合や完全に合成された場合でも、実データに対して優れた性能を発揮します。

効率的な計算

計算量は1.242兆回の浮動小数点演算で、性能と効率のバランスが取れています。

モデル能力

人間画像深度推定

高解像度画像処理

使用事例

コンピュータビジョン

人体深度知覚

人間画像の相対深度を推定するために使用され、拡張現実や仮想現実アプリケーションに適しています。

実シーンで優れた汎化能力を示します。

🚀 Depth-Sapiens-0.3B

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を事前学習したビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整されると、実環境の条件に対して汎化性能を発揮します。

🚀 クイックスタート

Sapiens-0.3Bは、1Kの高解像度推論をネイティブにサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して顕著な汎化性能を示します。

✨ 主な機能

3億枚の人間画像を1024 x 1024の解像度で事前学習
人間中心のビジョンタスクに微調整可能
1K高解像度推論をネイティブにサポート
実環境のデータに対する高い汎化性能

📦 インストール

ドキュメントに具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

ドキュメントに具体的なコード例が記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデル詳細

開発元: Meta
モデルタイプ: Vision Transformer
ライセンス: Creative Commons Attribution-NonCommercial 4.0
タスク: 深度推定
形式: オリジナル
ファイル: sapiens_0.3b_render_people_epoch_100.pth

モデルカード

属性	详情
画像サイズ	1024 x 768 (H x W)
パラメータ数	0.336 B
FLOPs	1.242 TFLOPs
パッチサイズ	16 x 16
埋め込み次元数	1024
レイヤー数	24
ヘッド数	16
フィードフォワードチャンネル数	4096

その他のリソース

リポジトリ: https://github.com/facebookresearch/sapiens
論文: https://arxiv.org/abs/2408.12569
デモ: https://huggingface.co/spaces/facebook/sapiens-depth
プロジェクトページ: https://about.meta.com/realitylabs/codecavatars/sapiens
追加結果: https://rawalkhirodkar.github.io/sapiens
HuggingFaceコレクション: https://huggingface.co/collections/facebook/sapiens-66d22047daa6402d565cb2fc

🔧 技術詳細

ドキュメントに具体的な技術詳細が50文字以上記載されていないため、このセクションは省略されます。

📄 ライセンス

このモデルはCreative Commons Attribution-NonCommercial 4.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご