🚀 LlamaV-o1
LlamaV-o1 是一款先進的多模態大語言模型(LLM),專為複雜的視覺推理任務而設計。它基於前沿的課程學習技術構建,並採用了諸如束搜索等優化技術,在各種基準測試中展現出卓越的性能。該模型針對逐步推理進行了微調,能夠處理視覺感知、數學推理、社會文化背景、醫學影像和文檔理解等領域的任務。
🔍 快速開始
代碼示例
from transformers import MllamaForConditionalGeneration, AutoProcessor
model_id = "omkarthawakar/LlamaV-o1"
model = MllamaForConditionalGeneration.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
推理請參考 llamav-o1.py。
✨ 主要特性
- 模型規模:擁有 110 億個參數。
- 架構基礎:基於 Llama(大語言模型架構)家族。
- 微調優化:針對指令遵循、思維鏈推理和跨任務的強大泛化能力進行了增強。
- 應用場景:非常適合用於對話代理、教育工具、內容創作等用例。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
📚 詳細文檔
模型詳情
- 開發者:MBZUAI
- 模型版本:v0.1
- 發佈日期:2025 年 1 月 13 日
- 訓練數據集:多樣化的多語言語料庫,包括用於指令調優的高質量數據源、思維鏈數據集和通用語料庫。
- 框架:Pytorch
預期用途
LlamaV-o1 設計用於廣泛的自然語言處理(NLP)任務,包括但不限於:
- 文本生成
- 情感分析
- 文本摘要
- 問答系統
- 思維鏈推理
非預期用途
該模型不應在需要高風險決策的應用中使用,例如醫療診斷、金融預測或任何可能造成潛在危害的場景。
訓練過程
- 微調:該模型在針對推理、連貫性和多樣性進行優化的數據集上進行了微調,利用指令調優技術提高其在下游應用中的可用性。
- 優化:包括推理縮放優化,以平衡性能和計算效率。
評估
基準測試
LlamaV-o1 已在一系列基準任務上進行了評估:
侷限性
雖然該模型在廣泛的任務中表現良好,但可能在以下方面存在困難:
- 訓練語料庫之外的高度技術性、特定領域的知識。
- 為模糊或對抗性提示生成準確的輸出。
結果
表 1:基於最終答案准確性和推理步驟性能,在提議的 VRC-Bench 上對模型進行比較。每種情況(閉源和開源)中的最佳結果以粗體顯示。我們的 LlamaV-o1 與開源同類模型(Llava-CoT)相比取得了更優的性能,同時在與閉源模型的競爭中也具有競爭力。
模型 |
GPT-4o |
Claude-3.5 |
Gemini-2.0 |
Gemini-1.5 Pro |
Gemini-1.5 Flash |
GPT-4o Mini |
Llama-3.2 Vision |
Mulberry |
Llava-CoT |
LlamaV-o1 (我們的模型) |
最終答案 |
59.28 |
61.35 |
61.16 |
61.35 |
54.99 |
56.39 |
48.40 |
51.90 |
54.09 |
56.49 |
推理步驟 |
76.68 |
72.12 |
74.08 |
72.12 |
71.86 |
74.05 |
58.37 |
63.86 |
66.21 |
68.93 |
訓練數據
LlamaV-o1 在 LLaVA-CoT-100k 數據集上進行訓練。我們已經為多步推理格式化了訓練樣本。
訓練過程
LlamaV-o1 模型在 llama-recipes 上進行微調。詳細的訓練過程即將發佈!
📄 許可證
本項目採用 Apache-2.0 許可證。
🔖 引用
如果您覺得這篇論文有用,請考慮給我們的 Github 倉庫點個星 🌟 並引用 📑 我們的論文:
@misc{thawakar2025llamavo1,
title={LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs},
author={Omkar Thawakar and Dinura Dissanayake and Ketan More and Ritesh Thawkar and Ahmed Heakl and Noor Ahsan and Yuhao Li and Mohammed Zumri and Jean Lahoud and Rao Muhammad Anwer and Hisham Cholakkal and Ivan Laptev and Mubarak Shah and Fahad Shahbaz Khan and Salman Khan},
year={2025},
eprint={2501.06186},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2501.06186},
}
👀 模型展示
