🚀 LlamaV-o1
LlamaV-o1 は、複雑な視覚推論タスクに特化した高度なマルチモーダル大規模言語モデル(LLM)です。最先端のカリキュラム学習を基盤とし、ビームサーチなどの手法で最適化されており、様々なベンチマークで卓越した性能を発揮します。逐次的な推論に向けて微調整されており、視覚認識、数学的推論、社会文化的コンテキスト、医用画像、文書理解などの分野のタスクを解決できます。
このモデルは、解釈可能性と精度に重点を置いて設計されています。構造化された推論アプローチを活用することで、LlamaV-o1 はその判断に対して首尾一貫した正確な説明を提供し、高度な推論を必要とする研究やアプリケーションに最適なツールとなっています。ベンチマーク評価で4000以上の手動検証された推論ステップを持ち、LlamaV-o1 はマルチモーダル推論の新たな基準を設定し、困難なシナリオで一貫した信頼性の高い結果を提供します。
🚀 クイックスタート
このセクションでは、LlamaV-o1 の基本的な使い方を説明します。
from transformers import MllamaForConditionalGeneration, AutoProcessor
model_id = "omkarthawakar/LlamaV-o1"
model = MllamaForConditionalGeneration.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
推論については、llamav-o1.py を参照してください。
✨ 主な機能
- モデルサイズ:110億のパラメータを持つ。
- アーキテクチャ:Llama(大規模言語モデルアーキテクチャ)ファミリーに基づいている。
- 微調整:命令追従、思考連鎖推論、およびタスク間の堅牢な汎化能力を強化するために微調整されている。
- アプリケーション:会話エージェント、教育ツール、コンテンツ作成などのユースケースに最適。
📦 インストール
具体的なインストール手順は原ドキュメントに記載されていないため、このセクションは省略されます。
📚 ドキュメント
モデル詳細
属性 |
详情 |
開発者 |
MBZUAI |
モデルバージョン |
v0.1 |
リリース日 |
2025年1月13日 |
訓練データセット |
多言語コーパスで、命令微調整用の高品質ソース、思考連鎖データセット、汎用コーパスを含む。 |
フレームワーク |
Pytorch |
想定される使用方法
LlamaV-o1 は、以下を含む幅広い自然言語処理タスクに設計されています。
- テキスト生成
- 感情分析
- テキスト要約
- 質問応答
- 思考連鎖推論
使用範囲外
このモデルは、医療診断、金融予測、または潜在的な危害を伴うシナリオなど、高リスクの意思決定を必要とするアプリケーションでは使用しないでください。
訓練手順
- 微調整:推論、一貫性、および多様性に最適化されたデータセットで微調整され、下流アプリケーションでの使いやすさを強化するために命令微調整手法を活用しています。
- 最適化:性能と計算効率のバランスを取るための推論スケーリング最適化を含みます。
評価
ベンチマーク
LlamaV-o1 は、一連のベンチマークタスクで評価されています。
制限事項
このモデルは幅広いタスクで良好な性能を発揮しますが、以下の場合に苦労することがあります。
- 訓練コーパス外の高度な技術的、ドメイン固有の知識。
- 曖昧または敵対的なプロンプトに対する正確な出力の生成。
結果
表1:提案されたVRC-Benchにおける最終回答精度と推論ステップの性能に基づくモデルの比較。各ケース(クローズドソースとオープンソース)の最良の結果は太字で表示されています。私たちのLlamaV-o1は、オープンソースの対応モデル(Llava-CoT)と比較して優れた性能を達成しており、クローズドソースのモデルとも競争力があります。
モデル |
GPT-4o |
Claude-3.5 |
Gemini-2.0 |
Gemini-1.5 Pro |
Gemini-1.5 Flash |
GPT-4o Mini |
Llama-3.2 Vision |
Mulberry |
Llava-CoT |
LlamaV-o1 (Ours) |
最終回答 |
59.28 |
61.35 |
61.16 |
61.35 |
54.99 |
56.39 |
48.40 |
51.90 |
54.09 |
56.49 |
推論ステップ |
76.68 |
72.12 |
74.08 |
72.12 |
71.86 |
74.05 |
58.37 |
63.86 |
66.21 |
68.93 |
訓練データ
LlamaV-o1 は、LLaVA-CoT-100kデータセットで訓練されています。多段階推論用に訓練サンプルをフォーマットしています。
訓練手順
LlamaV-o1モデルは、llama-recipesで微調整されています。詳細な訓練手順は近日公開予定です!
引用
この論文が役に立った場合は、🌟 私たちのGithubリポジトリをスターし、📑 私たちの論文を引用していただけると幸いです。
@misc{thawakar2025llamavo1,
title={LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs},
author={Omkar Thawakar and Dinura Dissanayake and Ketan More and Ritesh Thawkar and Ahmed Heakl and Noor Ahsan and Yuhao Li and Mohammed Zumri and Jean Lahoud and Rao Muhammad Anwer and Hisham Cholakkal and Ivan Laptev and Mubarak Shah and Fahad Shahbaz Khan and Salman Khan},
year={2025},
eprint={2501.06186},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2501.06186},
}
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。