Euclid-convnext-xxlarge-120524開源多模態模型 - 強化幾何感知實現高保真視覺分析

首頁

Euclid Convnext Xxlarge 120524

由euclid-multimodal開發

專為強化低級幾何感知能力訓練的多模態大語言模型，通過合成高保真視覺描述增強幾何分析能力

文本生成圖像

Transformers

英語開源協議:Apache-2.0 #幾何感知強化 #合成數據訓練 #機器人視覺

下載量 22

發布時間 : 12/3/2024

模型概述

結合ConvNeXt視覺編碼器與Qwen-2.5語言模型的多模態模型，在160萬張合成幾何圖像及問答對上訓練，擅長精確的幾何關係檢測和分析

模型特點

高保真幾何感知

通過合成幾何圖像和精確標註的問答對訓練，實現毫米級幾何關係識別

課程學習架構

採用漸進式訓練策略，從簡單幾何元素到複雜關係逐步提升模型能力

多模態融合

創新性地將ConvNeXt視覺特徵與語言模型通過雙層MLP進行高效對齊

模型能力

點線關係檢測

點圓關係檢測

角度分類

長度比較

幾何標註理解

幾何證明驗證

幾何等式求解

使用案例

工業檢測

機械零件尺寸測量

自動檢測零件圖紙中的關鍵尺寸關係

在長度比較任務中達到90.82%準確率

醫療影像

解剖結構分析

識別醫學影像中的器官幾何特徵

教育科技

幾何證明輔助

驗證學生提交的幾何證明步驟

在證明驗證任務中達到70.52%準確率

🚀 Euclid - convnext - xxlarge 模型卡片（2024年12月5日版本）

Euclid是一個專門為強大的低級幾何感知而訓練的多模態大語言模型，它能有效處理多種幾何感知任務，為相關領域的應用提供了有力支持。

🚀 快速開始

首先克隆Euclid [倉庫](https://github.com/euclid - multimodal/Euclid)，設置好環境，然後運行以下命令：

pip install -U "huggingface_hub[cli]"
huggingface-cli download --cache-dir $MODEL_PATH EuclidAI/Euclid-convnext-xxlarge
python euclid/eval/run_euclid_geo.py --model_path $MODEL_PATH --device cuda

✨ 主要特性

專業訓練：使用課程學習方法，在160萬張具有高保真問答對的合成幾何圖像上進行訓練。
架構組合：將ConvNeXt視覺編碼器與Qwen - 2.5語言模型相結合，並通過2層MLP多模態連接器連接。
精準感知：能夠執行點在線上檢測、點在圓上檢測、角度分類、長度比較和幾何註釋理解等精確的低級幾何感知任務。

📚 詳細文檔

模型詳情

模型描述

Euclid使用課程學習方法，在160萬張具有高保真問答對的合成幾何圖像上進行訓練。它將ConvNeXt視覺編碼器與Qwen - 2.5語言模型相結合，並通過2層MLP多模態連接器連接。

模型來源

倉庫：https://github.com/euclid - multimodal/Euclid
論文：https://arxiv.org/abs/2412.08737
演示：https://euclid - multimodal.github.io/

應用場景

該模型針對精確的低級幾何感知任務進行訓練，能夠執行以下任務：

點在線上檢測
點在圓上檢測
角度分類
長度比較
幾何註釋理解

完整的輸入格式請參考我們的[倉庫](https://github.com/euclid - multimodal/Euclid)。

侷限性與應用領域

我們的模型不適用於處理以下任務：

全面的圖像理解任務
超出幾何分析的高級認知推理

然而，該模型在低級視覺感知方面表現出色。這種能力使其有潛力作為專門的下游微調基礎模型，包括：

機器人視覺和自動化系統
醫學成像和診斷支持
工業質量保證和檢查
幾何教育和可視化工具

評估結果

在幾何感知基準任務上的性能表現如下：

模型	點在線上檢測(POL)	點在圓上檢測(POC)	角度分類(ALC)	長度比較(LHC)	點對誤差百分比(PEP)	點對召回率(PRA)	相等長度檢測(EQL)	總體
隨機基線	0.43	2.63	59.92	51.36	0.25	0.00	0.02	16.37
Pixtral - 12B	22.85	53.21	47.33	51.43	22.53	37.11	58.45	41.84
Gemini - 1.5 - Pro	24.42	69.80	57.96	79.05	39.60	77.59	52.27	57.24
EUCLID - ConvNeXt - Large	80.54	57.76	86.37	88.24	42.23	64.94	34.45	64.93
EUCLID - ConvNeXt - XXLarge	82.98	61.45	90.56	90.82	46.96	70.52	31.94	67.89

引用說明

如果您發現Euclid對您的研究和應用有幫助，請使用以下BibTeX進行引用：

@article{zhang2024euclid,
  title={Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions},
  author={Zhang, Jiarui and Liu, Ollie and Yu, Tianyu and Hu, Jinyi and Neiswanger, Willie},
  journal={arXiv preprint arXiv:2412.08737},
  year={2024}
}