DriveLMM-o1開源自動駕駛模型 - 多視角圖像推理為自動駕駛提供高效支持

首頁

Drivelmmo1

由ayeshaishaq開發

DriveLMM-o1是專為自動駕駛優化的微調大型多模態模型，基於InternVL2.5-8B架構並通過LoRA技術進行適配，利用拼接的多視角圖像實現逐步推理。

多模態融合

Transformers

英語開源協議:Apache-2.0 #自動駕駛推理 #多視角圖像融合 #鏈式決策解釋

下載量 233

發布時間 : 3/11/2025

模型概述

DriveLMM-o1是一個面向自動駕駛推理的大型多模態模型，通過整合多視角圖像實現全景場景理解，並生成詳細的中間推理步驟解釋決策過程。

模型特點

多模態融合

整合多視角圖像實現全景場景理解

鏈式推理

生成詳細的中間推理步驟解釋決策過程

高效適配

採用動態圖像分塊和LoRA微調技術，以極少的額外參數處理高分辨率輸入

性能突破

相比現有開源模型，在最終答案准確率和整體推理評分上取得顯著提升

模型能力

多視角圖像處理

自動駕駛決策推理

場景感知與物體理解

風險評估

交通規則遵守分析

使用案例

自動駕駛

風險評估

通過多視角圖像分析駕駛環境中的潛在風險

風險評估準確率達到73.01%

交通規則遵守

分析駕駛行為是否符合交通規則

交通規則遵守率達到81.56%

場景感知與物體理解

識別和理解駕駛環境中的各種物體和場景

場景感知與物體理解準確率達到75.39%

🚀 DriveLMM-o1：用於自動駕駛推理的大型多模態模型

DriveLMM-o1是一個針對自動駕駛進行微調的大型多模態模型。它基於InternVL2.5 - 8B模型，採用基於LoRA的自適應技術，利用拼接的多視圖圖像進行逐步推理。這種結構化的方法提高了複雜駕駛任務（如感知、預測和規劃）中最終決策的準確性和可解釋性。

🚀 快速開始

使用以下代碼片段加載模型：

from transformers import AutoModel, AutoTokenizer
import torch

path = 'ayeshaishaq/DriveLMMo1'
model = AutoModel.from_pretrained(
    path,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    use_flash_attn=True,
    trust_remote_code=True
).eval().cuda()

tokenizer = AutoTokenizer.from_pretrained(
    path,
    trust_remote_code=True,
    use_fast=False
)

有關詳細的使用說明和其他配置，請參考 OpenGVLab/InternVL2_5 - 8B 倉庫。

代碼地址：https://github.com/ayesha - ishaq/DriveLMM - o1

✨ 主要特性

多模態集成：結合多視圖圖像，實現對場景的全面理解。
逐步推理：生成詳細的中間推理步驟，解釋決策過程。
高效自適應：利用動態圖像補丁和LoRA微調技術，以最少的額外參數處理高分辨率輸入。
性能提升：與之前的開源模型相比，在最終答案准確性和整體推理得分方面都有顯著提高。

📦 安裝指南

文檔未提及具體安裝步驟，可參考代碼加載部分及 OpenGVLab/InternVL2_5 - 8B 倉庫進行安裝配置。

💻 使用示例

基礎用法

from transformers import AutoModel, AutoTokenizer
import torch

path = 'ayeshaishaq/DriveLMMo1'
model = AutoModel.from_pretrained(
    path,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    use_flash_attn=True,
    trust_remote_code=True
).eval().cuda()

tokenizer = AutoTokenizer.from_pretrained(
    path,
    trust_remote_code=True,
    use_fast=False
)

高級用法

文檔未提及高級用法相關代碼，如需更多使用場景，請參考 OpenGVLab/InternVL2_5 - 8B 倉庫。

📚 詳細文檔

性能對比

屬性	詳情
模型類型	基於InternVL2.5 - 8B微調的多模態模型
訓練數據	ayeshaishaq/DriveLMMo1

模型	風險評估準確率	交通規則遵守率	場景感知與目標理解	相關性	缺失細節	整體推理得分	最終答案准確率
GPT - 4o (閉源)	71.32	80.72	72.96	76.65	71.43	72.52	57.84
Qwen - 2.5 - VL - 7B	46.44	60.45	51.02	50.15	52.19	51.77	37.81
Ovis1.5 - Gemma2 - 9B	51.34	66.36	54.74	55.72	55.74	55.62	48.85
Mulberry - 7B	51.89	63.66	56.68	57.27	57.45	57.65	52.86
LLaVA - CoT	57.62	69.01	60.84	62.72	60.67	61.41	49.27
LlamaV - o1	60.20	73.52	62.67	64.66	63.41	63.13	50.02
InternVL2.5 - 8B	69.02	78.43	71.52	75.80	70.54	71.62	54.87
DriveLMM - o1 (我們的模型)	73.01	81.56	75.39	79.42	74.49	75.24	62.36