Llama-3.1-Nemotron-Nano-VL-8B-V1开源模型 - 免费部署查询总结图文视频

首页

Llama 3.1 Nemotron Nano VL 8B V1

由 nvidia 开发

Llama-3.1-Nemotron-Nano-VL-8B-V1是一款先进的文档智能视觉语言模型，能够对图像和视频进行查询与总结，支持多环境部署。

图像生成文本

Transformers

开源协议:其他 #文档智能分析 #多图像对比推理 #边缘设备部署

下载量 1,092

发布时间 : 6/3/2025

模型简介

该模型是一款领先的文档智能视觉语言模型，能够对现实或虚拟世界中的图像和视频进行查询和总结。支持在数据中心、云端和边缘设备等多种环境中部署，广泛应用于图像分析、问答等多个领域。

模型特点

强大的文档智能

能够对图像和视频进行查询和总结，支持多模态输入和输出。

多环境部署

可在数据中心、云端和边缘设备（如Jetson Orin和笔记本电脑）上部署，支持AWQ 4bit量化和TinyChat框架。

多模态支持

支持图像、视频和文本输入，输出为文本，适用于多种任务。

模型能力

图像分析

视频总结

文本生成

多图像比较

光学字符识别

交互式问答

使用案例

文档智能

图像总结

对单张或多张图像进行内容总结和描述。

文本-图像分析

结合文本和图像进行综合分析，生成详细描述或回答相关问题。

视觉问答

图像交互式问答

根据图像内容回答用户提出的问题。

多图像比较与对比

比较多张图像的相似性和差异性，生成对比分析结果。

🚀 Llama-3.1-Nemotron-Nano-VL-8B-V1

Llama-3.1-Nemotron-Nano-VL-8B-V1是一款先进的文档智能视觉语言模型，能够对现实或虚拟世界中的图像和视频进行查询与总结。它支持在数据中心、云端和边缘设备等多种环境中部署，可广泛应用于图像分析、问答等多个领域。

🚀 快速开始

安装依赖

pip install transformers accelerate timm einops open-clip-torch

使用示例

基础用法

from PIL import Image
from transformers import AutoImageProcessor, AutoModel, AutoTokenizer

path = "nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1"
model = AutoModel.from_pretrained(path, trust_remote_code=True, device_map="cuda").eval()
tokenizer = AutoTokenizer.from_pretrained(path)
image_processor = AutoImageProcessor.from_pretrained(path, trust_remote_code=True, device="cuda")

image1 = Image.open("images/example1a.jpeg")
image2 = Image.open("images/example1b.jpeg")
image_features = image_processor([image1, image2])

generation_config = dict(max_new_tokens=1024, do_sample=False, eos_token_id=tokenizer.eos_token_id)

question = 'Describe the two images.'
response = model.chat(
    tokenizer=tokenizer, question=question, generation_config=generation_config,
    **image_features)

print(f'User: {question}\nAssistant: {response}')

✨ 主要特性

强大的文档智能：作为领先的文档智能视觉语言模型，能够对图像和视频进行查询和总结。
多环境部署：可在数据中心、云端和边缘设备（如Jetson Orin和笔记本电脑）通过AWQ 4bit量化和TinyChat框架进行部署。
多模态支持：支持图像、视频和文本输入，输出为文本，适用于多种任务。

📦 安装指南

安装所需依赖：

pip install transformers accelerate timm einops open-clip-torch

📚 详细文档

模型概述

描述

Llama Nemotron Nano VL是一款领先的文档智能视觉语言模型（VLMs），它能够对现实或虚拟世界中的图像和视频进行查询和总结。Llama Nemotron Nano VL可通过TinyChat框架的AWQ 4bit量化在数据中心、云端和边缘设备（包括Jetson Orin和笔记本电脑）上进行部署。研究发现：（1）图像 - 文本对是不够的，交错的图像 - 文本至关重要；（2）在交错的图像 - 文本预训练期间解冻大语言模型（LLM）可实现上下文学习；（3）重新混合仅文本的指令数据对于提升视觉语言模型（VLM）和仅文本性能都至关重要。

该模型在三个训练阶段都使用了商业图像和视频进行训练，支持单图像和视频推理。

许可证/使用条款

适用条款：您对该模型的使用受NVIDIA开放许可协议的约束。 附加信息： Llama 3.1社区模型许可证；基于Llama构建。

部署地域

全球

用例

客户：AI代工企业客户 用例场景：图像总结、文本 - 图像分析、光学字符识别、图像交互式问答、多图像比较与对比、文本思维链推理。

发布日期

Build.Nvidia.com [2025年6月3日] 通过 nvidia/llama-3.1-nemotron-nano-vl-8b-v1
Hugging Face [2025年6月3日]

模型架构

属性	详情
网络类型	Transformer
网络架构	视觉编码器：CRadioV2 - H；语言编码器：Llama - 3.1 - 8B - Instruct
输入类型	图像、视频、文本
支持的输入图像	16K输入 + 输出令牌内的多个图像
支持的语言	仅英语
输入格式	图像（RGB）、视频（.mp4）、文本（字符串）
输入参数	图像（2D）、视频（3D）、文本（1D）
输入相关的其他属性	输入 + 输出令牌：16K；最大分辨率由12个图块布局约束决定，每个图块为512 × 512像素；通道数：3通道（RGB）；不支持Alpha通道（无透明度）
输出类型	文本
输出格式	字符串
输出参数	1D
输出相关的其他属性	输入 + 输出令牌：16K

我们的AI模型设计和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件（如GPU核心）和软件框架（如CUDA库），与仅使用CPU的解决方案相比，该模型可实现更快的训练和推理时间。

软件集成

运行时引擎：TensorRT - LLM
支持的硬件微架构兼容性：H100 SXM 80GB
支持的操作系统：Linux

模型版本

Llama - 3.1 - Nemotron - Nano - VL - 8B - V1

训练/评估数据集

NV - 预训练和NV - CosmosNemotron - SFT用于训练和评估。

数据集的数据收集方法（训练和评估）

混合：人工、合成

数据集的标注方法（训练和评估）

混合：人工、合成

此外，数据集收集（用于训练和评估）包括内部和公共数据集的混合，旨在跨各种任务进行训练和评估。它包括： • 内部数据集，使用公共商业图像和内部标签构建，支持对话建模和文档分析等任务。 • 公共数据集，源自公开可用的图像和注释，适用于图像字幕和视觉问答等任务。 • 合成数据集，为特定任务（如表格数据理解）以编程方式生成。 • 专门用于安全对齐、函数调用和特定领域任务（如科学图表、金融问答）的数据集。

评估基准

基准测试	得分
MMMU Val（以chatGPT为评判）	48.2%
AI2D	85.0%
ChartQA	86.3%
InfoVQA Val	77.4%
OCRBench	839
OCRBenchV2英语	60.1%
OCRBenchV2中文	37.9%
DocVQA val	91.2%
VideoMME	54.7%

推理

引擎：TTensorRT - LLM 测试硬件：

1x NVIDIA H100 SXM 80GB

伦理考量

NVIDIA认为可信AI是一项共同责任，我们已制定政策和实践，以支持广泛的AI应用开发。当按照我们的服务条款下载或使用时，开发人员应与内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。有关该模型伦理考量的更多详细信息，请参阅模型卡片++ 可解释性、偏差、安全与保障和隐私子卡片。请在此报告安全漏洞或NVIDIA AI相关问题。

用户对模型的输入和输出负责。用户在部署前有责任确保该模型的安全集成，包括实施防护措施和其他安全机制。

这些模型生成的输出可能包含政治内容或其他潜在的误导性信息、内容安全和安全问题，或与我们的监督无关的意外偏差。