🚀 DriveLMM-o1:用於自動駕駛推理的大型多模態模型
DriveLMM-o1是一個針對自動駕駛進行微調的大型多模態模型。它基於InternVL2.5 - 8B模型,採用基於LoRA的自適應技術,利用拼接的多視圖圖像進行逐步推理。這種結構化的方法提高了複雜駕駛任務(如感知、預測和規劃)中最終決策的準確性和可解釋性。
🚀 快速開始
使用以下代碼片段加載模型:
from transformers import AutoModel, AutoTokenizer
import torch
path = 'ayeshaishaq/DriveLMMo1'
model = AutoModel.from_pretrained(
path,
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=True,
use_flash_attn=True,
trust_remote_code=True
).eval().cuda()
tokenizer = AutoTokenizer.from_pretrained(
path,
trust_remote_code=True,
use_fast=False
)
有關詳細的使用說明和其他配置,請參考 OpenGVLab/InternVL2_5 - 8B 倉庫。
代碼地址:https://github.com/ayesha - ishaq/DriveLMM - o1
✨ 主要特性
- 多模態集成:結合多視圖圖像,實現對場景的全面理解。
- 逐步推理:生成詳細的中間推理步驟,解釋決策過程。
- 高效自適應:利用動態圖像補丁和LoRA微調技術,以最少的額外參數處理高分辨率輸入。
- 性能提升:與之前的開源模型相比,在最終答案准確性和整體推理得分方面都有顯著提高。
📦 安裝指南
文檔未提及具體安裝步驟,可參考代碼加載部分及 OpenGVLab/InternVL2_5 - 8B 倉庫進行安裝配置。
💻 使用示例
基礎用法
from transformers import AutoModel, AutoTokenizer
import torch
path = 'ayeshaishaq/DriveLMMo1'
model = AutoModel.from_pretrained(
path,
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=True,
use_flash_attn=True,
trust_remote_code=True
).eval().cuda()
tokenizer = AutoTokenizer.from_pretrained(
path,
trust_remote_code=True,
use_fast=False
)
高級用法
文檔未提及高級用法相關代碼,如需更多使用場景,請參考 OpenGVLab/InternVL2_5 - 8B 倉庫。
📚 詳細文檔
性能對比
屬性 |
詳情 |
模型類型 |
基於InternVL2.5 - 8B微調的多模態模型 |
訓練數據 |
ayeshaishaq/DriveLMMo1 |
模型 |
風險評估準確率 |
交通規則遵守率 |
場景感知與目標理解 |
相關性 |
缺失細節 |
整體推理得分 |
最終答案准確率 |
GPT - 4o (閉源) |
71.32 |
80.72 |
72.96 |
76.65 |
71.43 |
72.52 |
57.84 |
Qwen - 2.5 - VL - 7B |
46.44 |
60.45 |
51.02 |
50.15 |
52.19 |
51.77 |
37.81 |
Ovis1.5 - Gemma2 - 9B |
51.34 |
66.36 |
54.74 |
55.72 |
55.74 |
55.62 |
48.85 |
Mulberry - 7B |
51.89 |
63.66 |
56.68 |
57.27 |
57.45 |
57.65 |
52.86 |
LLaVA - CoT |
57.62 |
69.01 |
60.84 |
62.72 |
60.67 |
61.41 |
49.27 |
LlamaV - o1 |
60.20 |
73.52 |
62.67 |
64.66 |
63.41 |
63.13 |
50.02 |
InternVL2.5 - 8B |
69.02 |
78.43 |
71.52 |
75.80 |
70.54 |
71.62 |
54.87 |
DriveLMM - o1 (我們的模型) |
73.01 |
81.56 |
75.39 |
79.42 |
74.49 |
75.24 |
62.36 |
📄 許可證
本項目採用Apache 2.0許可證。
⚠️ 重要提示
雖然DriveLMM - o1在自動駕駛任務中表現出強大的性能,但它是針對特定領域的推理進行微調的。用戶可能需要針對不同的駕駛環境進一步微調或調整模型。