🚀 Euclid-convnext-xxlarge (2024年12月05日版)
幾何学的知覚能力を強化したマルチモーダル大規模言語モデル
🚀 クイックスタート
Euclidは、高度な低レベルの幾何学的知覚能力を備えたマルチモーダル大規模言語モデルです。以下に、モデルの詳細と使用方法を説明します。
✨ 主な機能
- 高精度な幾何学的知覚:点と線の検出、点と円の検出、角度分類、長さ比較、幾何学的注釈理解などの低レベルの幾何学的知覚タスクに特化して訓練されています。
- 多様な応用可能性:ロボットビジョン、医療画像診断、産業品質保証、幾何学教育などの分野での応用が期待されます。
📦 インストール
まず、Euclidのリポジトリをクローンし、環境をセットアップしてから、以下のコマンドを実行します。
pip install -U "huggingface_hub[cli]"
huggingface-cli download --cache-dir $MODEL_PATH EuclidAI/Euclid-convnext-xxlarge
python euclid/eval/run_euclid_geo.py --model_path $MODEL_PATH --device cuda
💻 使用例
基本的な使用法
pip install -U "huggingface_hub[cli]"
huggingface-cli download --cache-dir $MODEL_PATH EuclidAI/Euclid-convnext-xxlarge
python euclid/eval/run_euclid_geo.py --model_path $MODEL_PATH --device cuda
📚 ドキュメント
モデルの詳細
モデルの説明
Euclidは、カリキュラム学習アプローチを用いて、160万枚の合成幾何学画像と高精度な質問応答ペアで訓練されています。ConvNeXtビジュアルエンコーダとQwen-2.5言語モデルを、2層のMLPマルチモーダルコネクタで接続した構成になっています。
モデルのソース
- リポジトリ: https://github.com/euclid-multimodal/Euclid
- 論文: https://arxiv.org/abs/2412.08737
- デモ: https://euclid-multimodal.github.io/
用途
このモデルは、低レベルの幾何学的知覚タスクに特化して訓練されており、以下のようなタスクを実行できます。
- 点と線の検出
- 点と円の検出
- 角度分類
- 長さ比較
- 幾何学的注釈理解
完全な入力形式については、リポジトリを参照してください。
制限事項と応用分野
このモデルは、以下のようなタスクを扱うように設計されていません。
- 包括的な画像理解タスク
- 幾何学分析を超えた高度な認知推論
しかし、低レベルの視覚知覚において強みを発揮します。この能力は、以下のような専門的なダウンストリームの微調整のベースモデルとして潜在的に価値があります。
- ロボットビジョンと自動化システム
- 医療画像診断支援
- 産業品質保証と検査
- 幾何学教育と可視化ツール
🔧 技術詳細
評価結果
幾何学知覚ベンチマークタスクでのパフォーマンスは以下の通りです。
モデル |
POL |
POC |
ALC |
LHC |
PEP |
PRA |
EQL |
全体 |
ランダムベースライン |
0.43 |
2.63 |
59.92 |
51.36 |
0.25 |
0.00 |
0.02 |
16.37 |
Pixtral-12B |
22.85 |
53.21 |
47.33 |
51.43 |
22.53 |
37.11 |
58.45 |
41.84 |
Gemini-1.5-Pro |
24.42 |
69.80 |
57.96 |
79.05 |
39.60 |
77.59 |
52.27 |
57.24 |
EUCLID-ConvNeXt-Large |
80.54 |
57.76 |
86.37 |
88.24 |
42.23 |
64.94 |
34.45 |
64.93 |
EUCLID-ConvNeXt-XXLarge |
82.98 |
61.45 |
90.56 |
90.82 |
46.96 |
70.52 |
31.94 |
67.89 |
引用
もしEuclidがあなたの研究やアプリケーションに役立つと思われる場合は、以下のBibTeXを使用して引用してください。
@article{zhang2024euclid,
title={Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions},
author={Zhang, Jiarui and Liu, Ollie and Yu, Tianyu and Hu, Jinyi and Neiswanger, Willie},
journal={arXiv preprint arXiv:2412.08737},
year={2024}
}
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。