🚀 Euclid - convnext - xxlarge 模型卡片(2024年12月5日版本)
Euclid是一個專門為強大的低級幾何感知而訓練的多模態大語言模型,它能有效處理多種幾何感知任務,為相關領域的應用提供了有力支持。
🚀 快速開始
首先克隆Euclid [倉庫](https://github.com/euclid - multimodal/Euclid),設置好環境,然後運行以下命令:
pip install -U "huggingface_hub[cli]"
huggingface-cli download --cache-dir $MODEL_PATH EuclidAI/Euclid-convnext-xxlarge
python euclid/eval/run_euclid_geo.py --model_path $MODEL_PATH --device cuda
✨ 主要特性
- 專業訓練:使用課程學習方法,在160萬張具有高保真問答對的合成幾何圖像上進行訓練。
- 架構組合:將ConvNeXt視覺編碼器與Qwen - 2.5語言模型相結合,並通過2層MLP多模態連接器連接。
- 精準感知:能夠執行點在線上檢測、點在圓上檢測、角度分類、長度比較和幾何註釋理解等精確的低級幾何感知任務。
📚 詳細文檔
模型詳情
模型描述
Euclid使用課程學習方法,在160萬張具有高保真問答對的合成幾何圖像上進行訓練。它將ConvNeXt視覺編碼器與Qwen - 2.5語言模型相結合,並通過2層MLP多模態連接器連接。
模型來源
- 倉庫:https://github.com/euclid - multimodal/Euclid
- 論文:https://arxiv.org/abs/2412.08737
- 演示:https://euclid - multimodal.github.io/
應用場景
該模型針對精確的低級幾何感知任務進行訓練,能夠執行以下任務:
- 點在線上檢測
- 點在圓上檢測
- 角度分類
- 長度比較
- 幾何註釋理解
完整的輸入格式請參考我們的[倉庫](https://github.com/euclid - multimodal/Euclid)。
侷限性與應用領域
我們的模型不適用於處理以下任務:
然而,該模型在低級視覺感知方面表現出色。這種能力使其有潛力作為專門的下游微調基礎模型,包括:
- 機器人視覺和自動化系統
- 醫學成像和診斷支持
- 工業質量保證和檢查
- 幾何教育和可視化工具
評估結果
在幾何感知基準任務上的性能表現如下:
模型 |
點在線上檢測(POL) |
點在圓上檢測(POC) |
角度分類(ALC) |
長度比較(LHC) |
點對誤差百分比(PEP) |
點對召回率(PRA) |
相等長度檢測(EQL) |
總體 |
隨機基線 |
0.43 |
2.63 |
59.92 |
51.36 |
0.25 |
0.00 |
0.02 |
16.37 |
Pixtral - 12B |
22.85 |
53.21 |
47.33 |
51.43 |
22.53 |
37.11 |
58.45 |
41.84 |
Gemini - 1.5 - Pro |
24.42 |
69.80 |
57.96 |
79.05 |
39.60 |
77.59 |
52.27 |
57.24 |
EUCLID - ConvNeXt - Large |
80.54 |
57.76 |
86.37 |
88.24 |
42.23 |
64.94 |
34.45 |
64.93 |
EUCLID - ConvNeXt - XXLarge |
82.98 |
61.45 |
90.56 |
90.82 |
46.96 |
70.52 |
31.94 |
67.89 |
引用說明
如果您發現Euclid對您的研究和應用有幫助,請使用以下BibTeX進行引用:
@article{zhang2024euclid,
title={Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions},
author={Zhang, Jiarui and Liu, Ollie and Yu, Tianyu and Hu, Jinyi and Neiswanger, Willie},
journal={arXiv preprint arXiv:2412.08737},
year={2024}
}
📄 許可證
本項目採用Apache - 2.0許可證。