Sapiens-depth-1b-torchscriptオープンソースビジョンモデル - 人を中心としたビジョンタスク処理をサポート

ホーム

Sapiens Depth 1b Torchscript

facebookによって開発

Sapiensは3億枚の1024x1024解像度の人間画像で事前学習されたビジョントランスフォーマーシリーズモデルで、人間中心の視覚タスクに特化しています。

3Dビジョン英語#高解像度深度推定 #人間画像専用 #10億パラメータ大規模モデル

ダウンロード数 160

リリース時間 : 9/9/2024

モデル概要

このモデルは人間画像の相対的な深度を推定するために使用され、1K高解像度推論をサポートし、実データで優れた汎化能力を示します。

モデル特徴

高解像度サポート

1K高解像度推論をネイティブサポートし、高品質な画像処理に適しています。

優れた汎化能力

アノテーションデータが不足している場合や完全に合成された場合でも、実データに対して優れた汎化性能を示します。

大規模事前学習

3億枚の人間画像で事前学習されており、強力な特徴抽出能力を備えています。

モデル能力

人間画像深度推定

高解像度画像処理

視覚的特徴抽出

使用事例

コンピュータビジョン

人体深度知覚

人間画像の各部位の相対的な深度情報を推定するために使用されます

精密な深度マップを生成可能

仮想現実アプリケーション

VR/ARシステムにおける人物モデリングに深度情報サポートを提供します

属性	詳情
画像サイズ	1024 x 768 (H x W)
パラメータ数	1.169 B
FLOPs	4.647 TFLOPs
パッチサイズ	16 x 16
埋め込み次元	1536
レイヤー数	40
ヘッド数	24
フィードフォワードチャネル	6144

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Sapiens Depth 1b Torchscript

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Depth-Sapiens-1B-Torchscript

✨ 主な機能

📦 インストール

📚 ドキュメント

モデル詳細

モデルカード

その他のリソース

📄 ライセンス