🚀 Euclid - convnext - xxlarge 模型卡片(2024年12月5日版本)
Euclid是一个专门为强大的低级几何感知而训练的多模态大语言模型,它能有效处理多种几何感知任务,为相关领域的应用提供了有力支持。
🚀 快速开始
首先克隆Euclid [仓库](https://github.com/euclid - multimodal/Euclid),设置好环境,然后运行以下命令:
pip install -U "huggingface_hub[cli]"
huggingface-cli download --cache-dir $MODEL_PATH EuclidAI/Euclid-convnext-xxlarge
python euclid/eval/run_euclid_geo.py --model_path $MODEL_PATH --device cuda
✨ 主要特性
- 专业训练:使用课程学习方法,在160万张具有高保真问答对的合成几何图像上进行训练。
- 架构组合:将ConvNeXt视觉编码器与Qwen - 2.5语言模型相结合,并通过2层MLP多模态连接器连接。
- 精准感知:能够执行点在线上检测、点在圆上检测、角度分类、长度比较和几何注释理解等精确的低级几何感知任务。
📚 详细文档
模型详情
模型描述
Euclid使用课程学习方法,在160万张具有高保真问答对的合成几何图像上进行训练。它将ConvNeXt视觉编码器与Qwen - 2.5语言模型相结合,并通过2层MLP多模态连接器连接。
模型来源
- 仓库:https://github.com/euclid - multimodal/Euclid
- 论文:https://arxiv.org/abs/2412.08737
- 演示:https://euclid - multimodal.github.io/
应用场景
该模型针对精确的低级几何感知任务进行训练,能够执行以下任务:
- 点在线上检测
- 点在圆上检测
- 角度分类
- 长度比较
- 几何注释理解
完整的输入格式请参考我们的[仓库](https://github.com/euclid - multimodal/Euclid)。
局限性与应用领域
我们的模型不适用于处理以下任务:
然而,该模型在低级视觉感知方面表现出色。这种能力使其有潜力作为专门的下游微调基础模型,包括:
- 机器人视觉和自动化系统
- 医学成像和诊断支持
- 工业质量保证和检查
- 几何教育和可视化工具
评估结果
在几何感知基准任务上的性能表现如下:
模型 |
点在线上检测(POL) |
点在圆上检测(POC) |
角度分类(ALC) |
长度比较(LHC) |
点对误差百分比(PEP) |
点对召回率(PRA) |
相等长度检测(EQL) |
总体 |
随机基线 |
0.43 |
2.63 |
59.92 |
51.36 |
0.25 |
0.00 |
0.02 |
16.37 |
Pixtral - 12B |
22.85 |
53.21 |
47.33 |
51.43 |
22.53 |
37.11 |
58.45 |
41.84 |
Gemini - 1.5 - Pro |
24.42 |
69.80 |
57.96 |
79.05 |
39.60 |
77.59 |
52.27 |
57.24 |
EUCLID - ConvNeXt - Large |
80.54 |
57.76 |
86.37 |
88.24 |
42.23 |
64.94 |
34.45 |
64.93 |
EUCLID - ConvNeXt - XXLarge |
82.98 |
61.45 |
90.56 |
90.82 |
46.96 |
70.52 |
31.94 |
67.89 |
引用说明
如果您发现Euclid对您的研究和应用有帮助,请使用以下BibTeX进行引用:
@article{zhang2024euclid,
title={Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions},
author={Zhang, Jiarui and Liu, Ollie and Yu, Tianyu and Hu, Jinyi and Neiswanger, Willie},
journal={arXiv preprint arXiv:2412.08737},
year={2024}
}
📄 许可证
本项目采用Apache - 2.0许可证。