LlamaV-o1開源多模態大語言模型 - 免費部署助力複雜視覺推理任務

首頁

Llamav O1

由omkarthawakar開發

LlamaV-o1 是一款先進的多模態大語言模型，專為複雜的視覺推理任務而設計，通過課程學習技術優化，在多樣化的基準測試中展現出卓越性能。

文本生成圖像

Safetensors

英語開源協議:Apache-2.0 #多模態推理 #思維鏈優化 #視覺問答

下載量 1,406

發布時間 : 12/18/2024

模型概述

LlamaV-o1 是一款基於 Llama 架構的多模態大語言模型，經過逐步推理的微調，能夠處理視覺感知、數學推理、社會與文化背景、醫學影像及文檔理解等領域的任務。

模型特點

多模態推理能力

能夠處理視覺感知、數學推理、社會與文化背景、醫學影像及文檔理解等多模態任務。

結構化推理方法

採用結構化推理方法，能夠為其決策提供連貫且準確的解釋。

高性能基準測試

在 VRC-Bench 等基準測試中表現出色，超越多個開源和閉源模型。

模型能力

視覺推理

數學推理

文檔理解

醫學影像分析

多模態問答

使用案例

教育

教育工具

用於開發智能教育工具，幫助學生理解複雜概念。

內容創作

內容生成

用於生成高質量的多模態內容，如圖文結合的教程或報告。

對話代理

智能對話系統

用於開發能夠理解視覺和文本輸入的智能對話代理。

🚀 LlamaV-o1

LlamaV-o1 是一款先進的多模態大語言模型（LLM），專為複雜的視覺推理任務而設計。它基於前沿的課程學習技術構建，並採用了諸如束搜索等優化技術，在各種基準測試中展現出卓越的性能。該模型針對逐步推理進行了微調，能夠處理視覺感知、數學推理、社會文化背景、醫學影像和文檔理解等領域的任務。

🔍 快速開始

代碼示例

from transformers import MllamaForConditionalGeneration, AutoProcessor

model_id = "omkarthawakar/LlamaV-o1"

model = MllamaForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)

推理請參考 llamav-o1.py。

✨ 主要特性

模型規模：擁有 110 億個參數。
架構基礎：基於 Llama（大語言模型架構）家族。
微調優化：針對指令遵循、思維鏈推理和跨任務的強大泛化能力進行了增強。
應用場景：非常適合用於對話代理、教育工具、內容創作等用例。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

📚 詳細文檔

模型詳情

開發者：MBZUAI
模型版本：v0.1
發佈日期：2025 年 1 月 13 日
訓練數據集：多樣化的多語言語料庫，包括用於指令調優的高質量數據源、思維鏈數據集和通用語料庫。
框架：Pytorch

預期用途

LlamaV-o1 設計用於廣泛的自然語言處理（NLP）任務，包括但不限於：

文本生成
情感分析
文本摘要
問答系統
思維鏈推理

非預期用途

該模型不應在需要高風險決策的應用中使用，例如醫療診斷、金融預測或任何可能造成潛在危害的場景。

訓練過程

微調：該模型在針對推理、連貫性和多樣性進行優化的數據集上進行了微調，利用指令調優技術提高其在下游應用中的可用性。
優化：包括推理縮放優化，以平衡性能和計算效率。

評估

基準測試

LlamaV-o1 已在一系列基準任務上進行了評估：

推理：VRC-Bench

侷限性

雖然該模型在廣泛的任務中表現良好，但可能在以下方面存在困難：

訓練語料庫之外的高度技術性、特定領域的知識。
為模糊或對抗性提示生成準確的輸出。

結果

表 1：基於最終答案准確性和推理步驟性能，在提議的 VRC-Bench 上對模型進行比較。每種情況（閉源和開源）中的最佳結果以粗體顯示。我們的 LlamaV-o1 與開源同類模型（Llava-CoT）相比取得了更優的性能，同時在與閉源模型的競爭中也具有競爭力。

模型	GPT-4o	Claude-3.5	Gemini-2.0	Gemini-1.5 Pro	Gemini-1.5 Flash	GPT-4o Mini	Llama-3.2 Vision	Mulberry	Llava-CoT	LlamaV-o1 (我們的模型)
最終答案	59.28	61.35	61.16	61.35	54.99	56.39	48.40	51.90	54.09	56.49
推理步驟	76.68	72.12	74.08	72.12	71.86	74.05	58.37	63.86	66.21	68.93

訓練數據

LlamaV-o1 在 LLaVA-CoT-100k 數據集上進行訓練。我們已經為多步推理格式化了訓練樣本。

訓練過程

LlamaV-o1 模型在 llama-recipes 上進行微調。詳細的訓練過程即將發佈！

📄 許可證

本項目採用 Apache-2.0 許可證。

🔖 引用

如果您覺得這篇論文有用，請考慮給我們的 Github 倉庫點個星 🌟 並引用 📑 我們的論文：

@misc{thawakar2025llamavo1,
      title={LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs}, 
      author={Omkar Thawakar and Dinura Dissanayake and Ketan More and Ritesh Thawkar and Ahmed Heakl and Noor Ahsan and Yuhao Li and Mohammed Zumri and Jean Lahoud and Rao Muhammad Anwer and Hisham Cholakkal and Ivan Laptev and Mubarak Shah and Fahad Shahbaz Khan and Salman Khan},
      year={2025},
      eprint={2501.06186},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2501.06186}, 
}