3D視覺

2025年最佳 177 款3D視覺工具

騰訊推出的先進3D合成系統，支持從圖像或文本生成高分辨率帶紋理3D資產

3D視覺支持多種語言

TRELLIS Image Large

TRELLIS Image Large是一個大型3D生成模型TRELLIS的圖像條件版本，能夠依據輸入圖像生成3D內容。

Depth Anything V2 Small Hf

Depth Anything V2是目前最強大的單目深度估計模型，基於59.5萬張合成標註圖像和6200萬+真實無標註圖像訓練而成，具有精細細節和魯棒性。

基於視覺變換器(ViT)的單目深度估計模型，在140萬張圖像上訓練，適用於零樣本深度預測任務。

Dpt Hybrid Midas

基於視覺變換器(ViT)的單目深度估計模型，在140萬張圖像上訓練

VGGT是一種前饋神經網絡，能夠直接從場景的一個、幾個或數百個視圖中，在數秒內推斷出所有關鍵的3D屬性。

Depth Anything Large Hf

Depth Anything是基於DPT架構和DINOv2骨幹網絡的深度估計模型，在約6200萬張圖像上訓練，在相對和絕對深度估計任務中取得了最先進的結果。

Depth Anything V2 Large

Depth Anything V2 是目前最強大的單目深度估計模型，基於大量合成和真實圖像訓練，提供精細的深度細節和高魯棒性。

Mast3r ViTLarge BaseDecoder 512 Catmlpdpt Metric

MASt3R是一個基於ViT架構的圖像轉3D模型，能夠實現圖像與3D空間的匹配

Depth Anything Small Hf

Depth Anything是基於DPT架構的深度估計模型，採用DINOv2骨幹網絡，在約6200萬張圖像上訓練，在相對和絕對深度估計任務上表現優異。

Marigold Depth V1 0

基於穩定擴散模型微調的單目圖像深度估計模型，具有仿射不變性，適用於自然場景的深度預測

Depth Anything V2 Large Hf

Depth Anything V2是目前最強大的單目深度估計(MDE)模型，基於59.5萬張合成標註圖像和6200萬+真實無標註圖像訓練而成，具有更精細的細節和更強的穩健性。

Depth Anything V2 Base

Depth Anything V2是目前最強大的單目深度估計(MDE)模型，基於59.5萬張合成標註圖像與6200萬+真實無標註圖像訓練而成

Depth Anything V2 Small

Depth Anything V2 是目前性能最強的單目深度估計模型，基於大規模合成與真實圖像訓練，相比V1版本能捕捉更精細的細節且更魯棒。

DepthCrafter是一個能夠為開放世界視頻生成時間上連貫的長深度序列的模型，具有精細的細節，無需額外的信息如相機姿態或光流。

Depth Anything V2 Metric Indoor Large Hf

基於Depth Anything V2使用合成Hypersim數據集進行室內度量深度估計的微調版本，兼容transformers庫。

Depth Anything V2 Base Hf

Depth Anything V2 是目前最強大的單目深度估計模型，基於59.5萬張合成標註圖像和6200萬+真實無標註圖像訓練而成，具有更精細的細節和更強的魯棒性。

Dust3r ViTLarge BaseDecoder 512 Dpt

DUSt3R是一個用於從圖像輕鬆實現幾何3D視覺的模型，能夠從單張或多張圖像重建3D場景。

Lotus Depth G V1 0

Lotus是一個基於擴散模型的視覺基礎模型，專注於高質量的密集預測任務。

Dpt Beit Base 384

DPT是基於BEiT骨幹網絡的密集預測變換器模型，用於單目深度估計，在140萬張圖像上訓練。

Hunyuan3d 2mini

騰訊混元3D 2mini是一個輕量高效的圖像轉3D模型，參數規模為6億，支持中英文輸入。

3D視覺支持多種語言

Marigold Depth Lcm V1 0

基於潛在一致性蒸餾方法微調的單目深度估計模型，用於從單張圖像生成深度圖

Zoedepth Nyu Kitti

ZoeDepth是基於NYU和KITTI數據集微調的深度估計模型，能夠以實際度量單位估計深度值。

Yoso Normal V0 3

通過降低擴散方差實現穩定銳利的法線貼圖生成的模型

Trellis Normal V0 1

TRELLIS的改進版，支持將2D圖像轉換為3D模型，特別支持法線條件化處理。

TripoSR是由Stability AI與Tripo AI聯合開發的快速前饋式3D生成模型，專注於從單張圖像快速重建3D模型。

Depth Anything Vitl14

Depth Anything 是一個強大的深度估計模型，利用大規模無標籤數據釋放深度估計的潛力。

Fast3r ViT Large 512

fast3r是一個專注於圖像轉3D的模型，由Facebook Research開發。

DepthPro是一個用於零樣本度量單目深度估計的基礎模型，能夠生成高分辨率、高精度的深度圖。

Openlrm Mix Base 1.1

OpenLRM是論文LRM的開源實現，能夠從單張圖像生成3D模型，包含不同規模的多個版本。

混元3D-2多視圖版是基於混元3D-2微調的版本，支持多視角控制形狀生成的高分辨率紋理3D資產生成模型。

3D視覺支持多種語言

Depth Anything V2 Metric Indoor Base Hf

基於Depth Anything V2模型，針對室內度量深度估計任務使用Hypersim合成數據集微調的版本

Marigold Normals V0 1

基於穩定擴散模型微調的單目圖像法線估計模型，可從單張RGB圖像預測表面法線圖

Depth Anything Vits14

Depth Anything是一種深度估計模型，利用大規模無標記數據提升性能，適用於單目深度估計任務。

GLPN模型在NYUv2數據集上訓練，用於單目深度估計，結合全局和局部路徑網絡實現高精度深度預測。

Monst3r PO TA S W ViTLarge BaseDecoder 512 Dpt

MonST3R是一種在運動存在下估算幾何形狀的簡單方法，能夠從圖像中重建3D場景。

Depth Anything Vitb14

Depth Anything 是一個基於大規模無標籤數據訓練的深度估計模型，能夠從單張圖像中預測深度信息。

Yoso Normal V1 8 1

通過降低擴散方差實現穩定銳利的法線貼圖生成的模型

ZoeDepth是一個用於單目深度估計的視覺模型，在KITTI數據集上進行了微調，能夠實現零樣本遷移的度量深度估計。

Shap-E是一種基於擴散過程的文本生成3D圖像模型，能夠根據文本提示生成可渲染為紋理網格和神經輻射場的3D資產。

Theia Base Patch16 224 Cddsv

忒伊亞是一個面向機器人學習的視覺基礎模型，通過蒸餾多個視覺基礎模型獲得豐富的視覺表徵能力

TripoSG是基於大規模修正流模型的高保真3D形狀合成基礎模型，能夠實現單圖像到高質量3D網格的生成。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase