2025年最佳的 177 个3D视觉工具

Hunyuan3d 2
其他
腾讯推出的先进3D合成系统,支持从图像或文本生成高分辨率带纹理3D资产
3D视觉 支持多种语言
H
tencent
490.00k
1,314
TRELLIS Image Large
MIT
TRELLIS Image Large是一个大型3D生成模型TRELLIS的图像条件版本,能够依据输入图像生成3D内容。
3D视觉 英语
T
microsoft
463.44k
520
Depth Anything V2 Small Hf
Apache-2.0
Depth Anything V2是目前最强大的单目深度估计模型,基于59.5万张合成标注图像和6200万+真实无标注图像训练而成,具有精细细节和鲁棒性。
3D视觉 Transformers
D
depth-anything
438.72k
15
Dpt Large
Apache-2.0
基于视觉变换器(ViT)的单目深度估计模型,在140万张图像上训练,适用于零样本深度预测任务。
3D视觉 Transformers
D
Intel
364.62k
187
Dpt Hybrid Midas
Apache-2.0
基于视觉变换器(ViT)的单目深度估计模型,在140万张图像上训练
3D视觉 Transformers
D
Intel
224.05k
94
VGGT 1B
VGGT是一种前馈神经网络,能够直接从场景的一个、几个或数百个视图中,在数秒内推断出所有关键的3D属性。
3D视觉 英语
V
facebook
196.31k
40
Depth Anything Large Hf
Apache-2.0
Depth Anything是基于DPT架构和DINOv2骨干网络的深度估计模型,在约6200万张图像上训练,在相对和绝对深度估计任务中取得了最先进的结果。
3D视觉 Transformers
D
LiheYoung
147.17k
51
Depth Anything V2 Large
Depth Anything V2 是目前最强大的单目深度估计模型,基于大量合成和真实图像训练,提供精细的深度细节和高鲁棒性。
3D视觉 英语
D
depth-anything
130.54k
94
Mast3r ViTLarge BaseDecoder 512 Catmlpdpt Metric
MASt3R是一个基于ViT架构的图像转3D模型,能够实现图像与3D空间的匹配
3D视觉
M
naver
116.60k
15
Depth Anything Small Hf
Apache-2.0
Depth Anything是基于DPT架构的深度估计模型,采用DINOv2骨干网络,在约6200万张图像上训练,在相对和绝对深度估计任务上表现优异。
3D视觉 Transformers
D
LiheYoung
97.89k
29
Marigold Depth V1 0
Apache-2.0
基于稳定扩散模型微调的单目图像深度估计模型,具有仿射不变性,适用于自然场景的深度预测
3D视觉 英语
M
prs-eth
92.50k
127
Depth Anything V2 Large Hf
Depth Anything V2是目前最强大的单目深度估计(MDE)模型,基于59.5万张合成标注图像和6200万+真实无标注图像训练而成,具有更精细的细节和更强的稳健性。
3D视觉 Transformers
D
depth-anything
83.99k
19
Depth Anything V2 Base
Depth Anything V2是目前最强大的单目深度估计(MDE)模型,基于59.5万张合成标注图像与6200万+真实无标注图像训练而成
3D视觉 英语
D
depth-anything
66.95k
17
Depth Anything V2 Small
Apache-2.0
Depth Anything V2 是目前性能最强的单目深度估计模型,基于大规模合成与真实图像训练,相比V1版本能捕捉更精细的细节且更鲁棒。
3D视觉 英语
D
depth-anything
55.22k
64
Depthcrafter
其他
DepthCrafter是一个能够为开放世界视频生成时间上连贯的长深度序列的模型,具有精细的细节,无需额外的信息如相机姿态或光流。
3D视觉
D
tencent
55.08k
91
Depth Anything V2 Metric Indoor Large Hf
基于Depth Anything V2使用合成Hypersim数据集进行室内度量深度估计的微调版本,兼容transformers库。
3D视觉 Transformers
D
depth-anything
47.99k
9
Depth Anything V2 Base Hf
Depth Anything V2 是目前最强大的单目深度估计模型,基于59.5万张合成标注图像和6200万+真实无标注图像训练而成,具有更精细的细节和更强的鲁棒性。
3D视觉 Transformers
D
depth-anything
47.73k
1
Dust3r ViTLarge BaseDecoder 512 Dpt
DUSt3R是一个用于从图像轻松实现几何3D视觉的模型,能够从单张或多张图像重建3D场景。
3D视觉
D
naver
46.93k
14
Lotus Depth G V1 0
Apache-2.0
Lotus是一个基于扩散模型的视觉基础模型,专注于高质量的密集预测任务。
3D视觉
L
jingheya
33.45k
21
Dpt Beit Base 384
MIT
DPT是基于BEiT骨干网络的密集预测变换器模型,用于单目深度估计,在140万张图像上训练。
3D视觉 Transformers
D
Intel
25.98k
1
Hunyuan3d 2mini
其他
腾讯混元3D 2mini是一个轻量高效的图像转3D模型,参数规模为6亿,支持中英文输入。
3D视觉 支持多种语言
H
tencent
23.22k
69
Marigold Depth Lcm V1 0
Apache-2.0
基于潜在一致性蒸馏方法微调的单目深度估计模型,用于从单张图像生成深度图
3D视觉 英语
M
prs-eth
22.45k
55
Zoedepth Nyu Kitti
MIT
ZoeDepth是基于NYU和KITTI数据集微调的深度估计模型,能够以实际度量单位估计深度值。
3D视觉 Transformers
Z
Intel
20.32k
5
Yoso Normal V0 3
Apache-2.0
通过降低扩散方差实现稳定锐利的法线贴图生成的模型
3D视觉
Y
Stable-X
20.30k
1
Trellis Normal V0 1
MIT
TRELLIS的改进版,支持将2D图像转换为3D模型,特别支持法线条件化处理。
3D视觉 英语
T
Stable-X
19.31k
10
Triposr
MIT
TripoSR是由Stability AI与Tripo AI联合开发的快速前馈式3D生成模型,专注于从单张图像快速重建3D模型。
3D视觉
T
stabilityai
19.25k
545
Depth Anything Vitl14
Depth Anything 是一个强大的深度估计模型,利用大规模无标签数据释放深度估计的潜力。
3D视觉 Transformers
D
LiheYoung
16.70k
42
Fast3r ViT Large 512
其他
fast3r是一个专注于图像转3D的模型,由Facebook Research开发。
3D视觉
F
jedyang97
16.34k
20
Depthpro Hf
DepthPro是一个用于零样本度量单目深度估计的基础模型,能够生成高分辨率、高精度的深度图。
3D视觉 Transformers
D
apple
13.96k
52
Openlrm Mix Base 1.1
OpenLRM是论文LRM的开源实现,能够从单张图像生成3D模型,包含不同规模的多个版本。
3D视觉 Transformers
O
zxhezexin
10.25k
6
Hunyuan3d 2mv
其他
混元3D-2多视图版是基于混元3D-2微调的版本,支持多视角控制形状生成的高分辨率纹理3D资产生成模型。
3D视觉 支持多种语言
H
tencent
9,170
371
Depth Anything V2 Metric Indoor Base Hf
基于Depth Anything V2模型,针对室内度量深度估计任务使用Hypersim合成数据集微调的版本
3D视觉 Transformers
D
depth-anything
9,056
1
Marigold Normals V0 1
Apache-2.0
基于稳定扩散模型微调的单目图像法线估计模型,可从单张RGB图像预测表面法线图
3D视觉 英语
M
prs-eth
8,845
4
Depth Anything Vits14
Depth Anything是一种深度估计模型,利用大规模无标记数据提升性能,适用于单目深度估计任务。
3D视觉 Transformers
D
LiheYoung
8,130
6
Glpn Nyu
Apache-2.0
GLPN模型在NYUv2数据集上训练,用于单目深度估计,结合全局和局部路径网络实现高精度深度预测。
3D视觉 Transformers
G
vinvino02
7,699
22
Monst3r PO TA S W ViTLarge BaseDecoder 512 Dpt
MonST3R是一种在运动存在下估算几何形状的简单方法,能够从图像中重建3D场景。
3D视觉
M
Junyi42
7,641
17
Depth Anything Vitb14
Depth Anything 是一个基于大规模无标签数据训练的深度估计模型,能够从单张图像中预测深度信息。
3D视觉 Transformers
D
LiheYoung
7,152
3
Yoso Normal V1 8 1
Apache-2.0
通过降低扩散方差实现稳定锐利的法线贴图生成的模型
3D视觉
Y
Stable-X
7,080
3
Zoedepth Kitti
MIT
ZoeDepth是一个用于单目深度估计的视觉模型,在KITTI数据集上进行了微调,能够实现零样本迁移的度量深度估计。
3D视觉 Transformers
Z
Intel
7,037
2
Shap E
MIT
Shap-E是一种基于扩散过程的文本生成3D图像模型,能够根据文本提示生成可渲染为纹理网格和神经辐射场的3D资产。
3D视觉
S
openai
6,109
234
Theia Base Patch16 224 Cddsv
其他
忒伊亚是一个面向机器人学习的视觉基础模型,通过蒸馏多个视觉基础模型获得丰富的视觉表征能力
3D视觉 Transformers
T
theaiinstitute
5,404
2
Triposg
MIT
TripoSG是基于大规模修正流模型的高保真3D形状合成基础模型,能够实现单图像到高质量3D网格的生成。
3D视觉
T
VAST-AI
5,402
101
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase