VGGT-1Bオープンソース3D属性推論モデル - 数秒でマルチビューから重要な3D属性を取得

ホーム

VGGT 1B

facebookによって開発

VGGTはフィードフォワードニューラルネットワークで、シーンの1つ、いくつか、または数百のビューから、数秒ですべての重要な3D属性を推論できます。

3Dビジョン

Safetensors

英語#マルチビュー3D再構築 #幾何学的推論 #リアルタイム3Dモデリング

ダウンロード数 196.31k

リリース時間 : 3/11/2025

モデル概要

視覚幾何学基礎Transformer（VGGT）は、単一ビューまたはマルチビューからカメラパラメータ、ポイントクラウド、深度マップ、3Dポイントトラジェクトリなどの3D属性を迅速に推論できるニューラルネットワークです。

モデル特徴

マルチビュー3D再構築

単一ビューまたはマルチビューから3D属性を迅速に推論可能

高速推論

数秒で3D属性推論を完了

包括的な3D属性出力

カメラパラメータ、ポイントクラウド、深度マップ、3Dポイントトラジェクトリを同時に出力可能

モデル能力

3Dシーン再構築

カメラパラメータ推定

深度マップ生成

ポイントクラウド生成

3Dポイントトラジェクトリ予測

使用事例

コンピュータビジョン

拡張現実

ARアプリケーション用に2D画像から迅速に3Dシーンを生成

ロボットナビゲーション

ロボットに環境の3D理解能力を提供

映像制作

高速3Dシーンモデリング

撮影素材から迅速に3Dシーンモデルを生成

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

VGGT 1B

モデル概要

モデル特徴

モデル能力

使用事例

🚀 VGGT: Visual Geometry Grounded Transformer

🚀 クイックスタート

📄 ライセンス

📚 ドキュメント

概要

関連リンク

著者

著者名

📚 引用