DUSt3R開源3D視覺模型 - 從單張或多張圖像輕鬆重建3D場景

首頁

Dust3r ViTLarge BaseDecoder 224 Linear

由naver開發

DUSt3R是一個用於從圖像輕鬆實現幾何3D視覺的模型，能夠從單張或多張圖像重建3D場景。

3D視覺

Safetensors

#圖像轉3D #幾何重建 #ViT架構

下載量 1,829

發布時間 : 6/19/2024

模型概述

DUSt3R是一個基於ViT架構的3D視覺模型，專注於從2D圖像中恢復3D幾何信息。它採用非對稱的CroCo3DStereo架構，能夠處理單視圖或多視圖輸入，輸出3D場景的幾何結構。

模型特點

單視圖和多視圖3D重建

能夠從單張或多張圖像中重建3D幾何結構

高效的ViT架構

使用Vision Transformer架構，結合大型編碼器和小型解碼器

高分辨率處理

支持224x224像素的輸入分辨率

模型能力

3D場景重建

幾何形狀恢復

深度估計

點雲生成

使用案例

計算機視覺

3D場景重建

從單張或多張2D圖像重建3D場景

生成場景的3D幾何結構和深度信息

增強現實

為AR應用提供3D環境理解

機器人視覺

環境感知

幫助機器人理解周圍環境的3D結構

屬性	詳情
模型名稱	DUSt3R_ViTLarge_BaseDecoder_224_linear
訓練分辨率	224x224
頭部	Linear
編碼器	ViT - L
解碼器	ViT - B

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Dust3r ViTLarge BaseDecoder 224 Linear

模型概述

模型特點

模型能力

使用案例

🚀 DUSt3R：讓幾何3D視覺變得簡單

🚀 快速開始

💻 使用示例

基礎用法

✨ 主要特性

📦 安裝指南

📚 詳細文檔

模型信息

引用信息

📄 許可證