LlamaV - o1オープンソース多モーダル大規模言語モデル - 無料デプロイで複雑な視覚推論タスクを支援

ホーム

Llamav O1

omkarthawakarによって開発

LlamaV-o1は、複雑な視覚的推論タスクのために設計された先進的なマルチモーダル大規模言語モデルで、カリキュラム学習技術によって最適化され、多様なベンチマークテストで卓越した性能を発揮します。

テキスト生成画像

Safetensors

英語オープンソースライセンス:Apache-2.0 #マルチモーダル推論 #思考連鎖最適化 #視覚的質問応答

ダウンロード数 1,406

リリース時間 : 12/18/2024

モデル概要

LlamaV-o1は、Llamaアーキテクチャに基づくマルチモーダル大規模言語モデルで、段階的な推論による微調整を経ており、視覚的知覚、数学的推論、社会的・文化的背景、医療画像、文書理解などの分野のタスクを処理できます。

モデル特徴

マルチモーダル推論能力

視覚的知覚、数学的推論、社会的・文化的背景、医療画像、文書理解などのマルチモーダルタスクを処理できます。

構造化推論手法

構造化推論手法を採用し、その決定に対して一貫性があり正確な説明を提供できます。

高性能ベンチマーク

VRC-Benchなどのベンチマークで優れた性能を発揮し、多くのオープンソースおよびクローズドソースモデルを凌駕しています。

モデル能力

視覚的推論

数学的推論

文書理解

医療画像分析

マルチモーダル質問応答

使用事例

教育

教育ツール

複雑な概念を学生が理解するのを助けるためのインテリジェントな教育ツールの開発に使用されます。

コンテンツ作成

コンテンツ生成

画像とテキストを組み合わせたチュートリアルやレポートなどの高品質なマルチモーダルコンテンツの生成に使用されます。

対話エージェント

インテリジェント対話システム

視覚的およびテキスト入力を理解できるインテリジェントな対話エージェントの開発に使用されます。

🚀 LlamaV-o1

LlamaV-o1 は、複雑な視覚推論タスクに特化した高度なマルチモーダル大規模言語モデル（LLM）です。最先端のカリキュラム学習を基盤とし、ビームサーチなどの手法で最適化されており、様々なベンチマークで卓越した性能を発揮します。逐次的な推論に向けて微調整されており、視覚認識、数学的推論、社会文化的コンテキスト、医用画像、文書理解などの分野のタスクを解決できます。

このモデルは、解釈可能性と精度に重点を置いて設計されています。構造化された推論アプローチを活用することで、LlamaV-o1 はその判断に対して首尾一貫した正確な説明を提供し、高度な推論を必要とする研究やアプリケーションに最適なツールとなっています。ベンチマーク評価で4000以上の手動検証された推論ステップを持ち、LlamaV-o1 はマルチモーダル推論の新たな基準を設定し、困難なシナリオで一貫した信頼性の高い結果を提供します。

🚀 クイックスタート

このセクションでは、LlamaV-o1 の基本的な使い方を説明します。

from transformers import MllamaForConditionalGeneration, AutoProcessor

model_id = "omkarthawakar/LlamaV-o1"

model = MllamaForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)

推論については、llamav-o1.py を参照してください。

✨ 主な機能

モデルサイズ：110億のパラメータを持つ。
アーキテクチャ：Llama（大規模言語モデルアーキテクチャ）ファミリーに基づいている。
微調整：命令追従、思考連鎖推論、およびタスク間の堅牢な汎化能力を強化するために微調整されている。
アプリケーション：会話エージェント、教育ツール、コンテンツ作成などのユースケースに最適。

📦 インストール

具体的なインストール手順は原ドキュメントに記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデル詳細

属性	详情
開発者	MBZUAI
モデルバージョン	v0.1
リリース日	2025年1月13日
訓練データセット	多言語コーパスで、命令微調整用の高品質ソース、思考連鎖データセット、汎用コーパスを含む。
フレームワーク	Pytorch

想定される使用方法

LlamaV-o1 は、以下を含む幅広い自然言語処理タスクに設計されています。

テキスト生成
感情分析
テキスト要約
質問応答
思考連鎖推論

使用範囲外

このモデルは、医療診断、金融予測、または潜在的な危害を伴うシナリオなど、高リスクの意思決定を必要とするアプリケーションでは使用しないでください。

訓練手順

微調整：推論、一貫性、および多様性に最適化されたデータセットで微調整され、下流アプリケーションでの使いやすさを強化するために命令微調整手法を活用しています。
最適化：性能と計算効率のバランスを取るための推論スケーリング最適化を含みます。

評価

ベンチマーク

LlamaV-o1 は、一連のベンチマークタスクで評価されています。

推論：VRC-Bench

制限事項

このモデルは幅広いタスクで良好な性能を発揮しますが、以下の場合に苦労することがあります。

訓練コーパス外の高度な技術的、ドメイン固有の知識。
曖昧または敵対的なプロンプトに対する正確な出力の生成。

結果

表1：提案されたVRC-Benchにおける最終回答精度と推論ステップの性能に基づくモデルの比較。各ケース（クローズドソースとオープンソース）の最良の結果は太字で表示されています。私たちのLlamaV-o1は、オープンソースの対応モデル（Llava-CoT）と比較して優れた性能を達成しており、クローズドソースのモデルとも競争力があります。

モデル	GPT-4o	Claude-3.5	Gemini-2.0	Gemini-1.5 Pro	Gemini-1.5 Flash	GPT-4o Mini	Llama-3.2 Vision	Mulberry	Llava-CoT	LlamaV-o1 (Ours)
最終回答	59.28	61.35	61.16	61.35	54.99	56.39	48.40	51.90	54.09	56.49
推論ステップ	76.68	72.12	74.08	72.12	71.86	74.05	58.37	63.86	66.21	68.93

訓練データ

LlamaV-o1 は、LLaVA-CoT-100kデータセットで訓練されています。多段階推論用に訓練サンプルをフォーマットしています。

訓練手順

LlamaV-o1モデルは、llama-recipesで微調整されています。詳細な訓練手順は近日公開予定です！

引用

この論文が役に立った場合は、🌟 私たちのGithubリポジトリをスターし、📑 私たちの論文を引用していただけると幸いです。

@misc{thawakar2025llamavo1,
      title={LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs}, 
      author={Omkar Thawakar and Dinura Dissanayake and Ketan More and Ritesh Thawkar and Ahmed Heakl and Noor Ahsan and Yuhao Li and Mohammed Zumri and Jean Lahoud and Rao Muhammad Anwer and Hisham Cholakkal and Ivan Laptev and Mubarak Shah and Fahad Shahbaz Khan and Salman Khan},
      year={2025},
      eprint={2501.06186},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2501.06186}, 
}