🚀 LlamaV-o1
LlamaV-o1 是一款先进的多模态大语言模型(LLM),专为复杂的视觉推理任务而设计。它基于前沿的课程学习技术构建,并采用了诸如束搜索等优化技术,在各种基准测试中展现出卓越的性能。该模型针对逐步推理进行了微调,能够处理视觉感知、数学推理、社会文化背景、医学影像和文档理解等领域的任务。
🔍 快速开始
代码示例
from transformers import MllamaForConditionalGeneration, AutoProcessor
model_id = "omkarthawakar/LlamaV-o1"
model = MllamaForConditionalGeneration.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
推理请参考 llamav-o1.py。
✨ 主要特性
- 模型规模:拥有 110 亿个参数。
- 架构基础:基于 Llama(大语言模型架构)家族。
- 微调优化:针对指令遵循、思维链推理和跨任务的强大泛化能力进行了增强。
- 应用场景:非常适合用于对话代理、教育工具、内容创作等用例。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
📚 详细文档
模型详情
- 开发者:MBZUAI
- 模型版本:v0.1
- 发布日期:2025 年 1 月 13 日
- 训练数据集:多样化的多语言语料库,包括用于指令调优的高质量数据源、思维链数据集和通用语料库。
- 框架:Pytorch
预期用途
LlamaV-o1 设计用于广泛的自然语言处理(NLP)任务,包括但不限于:
- 文本生成
- 情感分析
- 文本摘要
- 问答系统
- 思维链推理
非预期用途
该模型不应在需要高风险决策的应用中使用,例如医疗诊断、金融预测或任何可能造成潜在危害的场景。
训练过程
- 微调:该模型在针对推理、连贯性和多样性进行优化的数据集上进行了微调,利用指令调优技术提高其在下游应用中的可用性。
- 优化:包括推理缩放优化,以平衡性能和计算效率。
评估
基准测试
LlamaV-o1 已在一系列基准任务上进行了评估:
局限性
虽然该模型在广泛的任务中表现良好,但可能在以下方面存在困难:
- 训练语料库之外的高度技术性、特定领域的知识。
- 为模糊或对抗性提示生成准确的输出。
结果
表 1:基于最终答案准确性和推理步骤性能,在提议的 VRC-Bench 上对模型进行比较。每种情况(闭源和开源)中的最佳结果以粗体显示。我们的 LlamaV-o1 与开源同类模型(Llava-CoT)相比取得了更优的性能,同时在与闭源模型的竞争中也具有竞争力。
模型 |
GPT-4o |
Claude-3.5 |
Gemini-2.0 |
Gemini-1.5 Pro |
Gemini-1.5 Flash |
GPT-4o Mini |
Llama-3.2 Vision |
Mulberry |
Llava-CoT |
LlamaV-o1 (我们的模型) |
最终答案 |
59.28 |
61.35 |
61.16 |
61.35 |
54.99 |
56.39 |
48.40 |
51.90 |
54.09 |
56.49 |
推理步骤 |
76.68 |
72.12 |
74.08 |
72.12 |
71.86 |
74.05 |
58.37 |
63.86 |
66.21 |
68.93 |
训练数据
LlamaV-o1 在 LLaVA-CoT-100k 数据集上进行训练。我们已经为多步推理格式化了训练样本。
训练过程
LlamaV-o1 模型在 llama-recipes 上进行微调。详细的训练过程即将发布!
📄 许可证
本项目采用 Apache-2.0 许可证。
🔖 引用
如果您觉得这篇论文有用,请考虑给我们的 Github 仓库点个星 🌟 并引用 📑 我们的论文:
@misc{thawakar2025llamavo1,
title={LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs},
author={Omkar Thawakar and Dinura Dissanayake and Ketan More and Ritesh Thawkar and Ahmed Heakl and Noor Ahsan and Yuhao Li and Mohammed Zumri and Jean Lahoud and Rao Muhammad Anwer and Hisham Cholakkal and Ivan Laptev and Mubarak Shah and Fahad Shahbaz Khan and Salman Khan},
year={2025},
eprint={2501.06186},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2501.06186},
}
👀 模型展示
