Euclid - convnext - xxlarge - 120524オープンソースマルチモーダルモデル - 强化された幾何学的知覚による高品質の視覚分析の実現

ホーム

Euclid Convnext Xxlarge 120524

euclid-multimodalによって開発

低レベルの幾何知覚能力を強化するために特別に訓練されたマルチモーダル大規模言語モデル。高忠実度の視覚記述を合成することで幾何解析能力を向上

テキスト生成画像

Transformers

英語オープンソースライセンス:Apache-2.0 #幾何知覚強化 #合成データトレーニング #ロボットビジョン

ダウンロード数 22

リリース時間 : 12/3/2024

モデル概要

ConvNeXt視覚エンコーダーとQwen-2.5言語モデルを組み合わせたマルチモーダルモデル。160万枚の合成幾何画像とQAペアで訓練され、正確な幾何関係検出と分析に優れる

モデル特徴

高忠実度幾何知覚

合成幾何画像と精密に注釈付けされたQAペアで訓練され、ミリメートルレベルの幾何関係認識を実現

カリキュラム学習アーキテクチャ

単純な幾何要素から複雑な関係へと段階的にモデル能力を向上させる漸進的訓練戦略を採用

マルチモーダル融合

ConvNeXt視覚特徴と言語モデルを2層MLPで効率的に整合させる革新的手法

モデル能力

点線関係検出

点円関係検出

角度分類

長さ比較

幾何注釈理解

幾何証明検証

幾何等式求解

使用事例

工業検査

機械部品寸法測定

部品図面中の主要寸法関係を自動検出

長さ比較タスクで90.82%の精度を達成

医療画像

解剖構造分析

医療画像中の臓器幾何特徴を識別

教育技術

幾何証明補助

学生が提出した幾何証明ステップを検証

証明検証タスクで70.52%の精度を達成

🚀 Euclid-convnext-xxlarge (2024年12月05日版)

幾何学的知覚能力を強化したマルチモーダル大規模言語モデル

🚀 クイックスタート

Euclidは、高度な低レベルの幾何学的知覚能力を備えたマルチモーダル大規模言語モデルです。以下に、モデルの詳細と使用方法を説明します。

✨ 主な機能

高精度な幾何学的知覚：点と線の検出、点と円の検出、角度分類、長さ比較、幾何学的注釈理解などの低レベルの幾何学的知覚タスクに特化して訓練されています。
多様な応用可能性：ロボットビジョン、医療画像診断、産業品質保証、幾何学教育などの分野での応用が期待されます。

📦 インストール

まず、Euclidのリポジトリをクローンし、環境をセットアップしてから、以下のコマンドを実行します。

pip install -U "huggingface_hub[cli]"
huggingface-cli download --cache-dir $MODEL_PATH EuclidAI/Euclid-convnext-xxlarge
python euclid/eval/run_euclid_geo.py --model_path $MODEL_PATH --device cuda

💻 使用例

基本的な使用法

pip install -U "huggingface_hub[cli]"
huggingface-cli download --cache-dir $MODEL_PATH EuclidAI/Euclid-convnext-xxlarge
python euclid/eval/run_euclid_geo.py --model_path $MODEL_PATH --device cuda

📚 ドキュメント

モデルの詳細

モデルの説明

Euclidは、カリキュラム学習アプローチを用いて、160万枚の合成幾何学画像と高精度な質問応答ペアで訓練されています。ConvNeXtビジュアルエンコーダとQwen-2.5言語モデルを、2層のMLPマルチモーダルコネクタで接続した構成になっています。

モデルのソース

リポジトリ: https://github.com/euclid-multimodal/Euclid
論文: https://arxiv.org/abs/2412.08737
デモ: https://euclid-multimodal.github.io/

用途

このモデルは、低レベルの幾何学的知覚タスクに特化して訓練されており、以下のようなタスクを実行できます。

点と線の検出
点と円の検出
角度分類
長さ比較
幾何学的注釈理解

完全な入力形式については、リポジトリを参照してください。

制限事項と応用分野

このモデルは、以下のようなタスクを扱うように設計されていません。

包括的な画像理解タスク
幾何学分析を超えた高度な認知推論

しかし、低レベルの視覚知覚において強みを発揮します。この能力は、以下のような専門的なダウンストリームの微調整のベースモデルとして潜在的に価値があります。

ロボットビジョンと自動化システム
医療画像診断支援
産業品質保証と検査
幾何学教育と可視化ツール

🔧 技術詳細

評価結果

幾何学知覚ベンチマークタスクでのパフォーマンスは以下の通りです。

モデル	POL	POC	ALC	LHC	PEP	PRA	EQL	全体
ランダムベースライン	0.43	2.63	59.92	51.36	0.25	0.00	0.02	16.37
Pixtral-12B	22.85	53.21	47.33	51.43	22.53	37.11	58.45	41.84
Gemini-1.5-Pro	24.42	69.80	57.96	79.05	39.60	77.59	52.27	57.24
EUCLID-ConvNeXt-Large	80.54	57.76	86.37	88.24	42.23	64.94	34.45	64.93
EUCLID-ConvNeXt-XXLarge	82.98	61.45	90.56	90.82	46.96	70.52	31.94	67.89

引用

もしEuclidがあなたの研究やアプリケーションに役立つと思われる場合は、以下のBibTeXを使用して引用してください。

@article{zhang2024euclid,
  title={Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions},
  author={Zhang, Jiarui and Liu, Ollie and Yu, Tianyu and Hu, Jinyi and Neiswanger, Willie},
  journal={arXiv preprint arXiv:2412.08737},
  year={2024}
}