🚀 Llama-3.1-Nemotron-Nano-VL-8B-V1
Llama-3.1-Nemotron-Nano-VL-8B-V1是一款先进的文档智能视觉语言模型,能够对现实或虚拟世界中的图像和视频进行查询与总结。它支持在数据中心、云端和边缘设备等多种环境中部署,可广泛应用于图像分析、问答等多个领域。
🚀 快速开始
安装依赖
pip install transformers accelerate timm einops open-clip-torch
使用示例
基础用法
from PIL import Image
from transformers import AutoImageProcessor, AutoModel, AutoTokenizer
path = "nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1"
model = AutoModel.from_pretrained(path, trust_remote_code=True, device_map="cuda").eval()
tokenizer = AutoTokenizer.from_pretrained(path)
image_processor = AutoImageProcessor.from_pretrained(path, trust_remote_code=True, device="cuda")
image1 = Image.open("images/example1a.jpeg")
image2 = Image.open("images/example1b.jpeg")
image_features = image_processor([image1, image2])
generation_config = dict(max_new_tokens=1024, do_sample=False, eos_token_id=tokenizer.eos_token_id)
question = 'Describe the two images.'
response = model.chat(
tokenizer=tokenizer, question=question, generation_config=generation_config,
**image_features)
print(f'User: {question}\nAssistant: {response}')
✨ 主要特性
- 强大的文档智能:作为领先的文档智能视觉语言模型,能够对图像和视频进行查询和总结。
- 多环境部署:可在数据中心、云端和边缘设备(如Jetson Orin和笔记本电脑)通过AWQ 4bit量化和TinyChat框架进行部署。
- 多模态支持:支持图像、视频和文本输入,输出为文本,适用于多种任务。
📦 安装指南
安装所需依赖:
pip install transformers accelerate timm einops open-clip-torch
📚 详细文档
模型概述
描述
Llama Nemotron Nano VL是一款领先的文档智能视觉语言模型(VLMs),它能够对现实或虚拟世界中的图像和视频进行查询和总结。Llama Nemotron Nano VL可通过TinyChat框架的AWQ 4bit量化在数据中心、云端和边缘设备(包括Jetson Orin和笔记本电脑)上进行部署。研究发现:(1)图像 - 文本对是不够的,交错的图像 - 文本至关重要;(2)在交错的图像 - 文本预训练期间解冻大语言模型(LLM)可实现上下文学习;(3)重新混合仅文本的指令数据对于提升视觉语言模型(VLM)和仅文本性能都至关重要。
该模型在三个训练阶段都使用了商业图像和视频进行训练,支持单图像和视频推理。
许可证/使用条款
适用条款:
您对该模型的使用受NVIDIA开放许可协议的约束。
附加信息:
Llama 3.1社区模型许可证;基于Llama构建。
部署地域
全球
用例
客户:AI代工企业客户
用例场景:图像总结、文本 - 图像分析、光学字符识别、图像交互式问答、多图像比较与对比、文本思维链推理。
发布日期
模型架构
属性 |
详情 |
网络类型 |
Transformer |
网络架构 |
视觉编码器:CRadioV2 - H;语言编码器:Llama - 3.1 - 8B - Instruct |
输入类型 |
图像、视频、文本 |
支持的输入图像 |
16K输入 + 输出令牌内的多个图像 |
支持的语言 |
仅英语 |
输入格式 |
图像(RGB)、视频(.mp4)、文本(字符串) |
输入参数 |
图像(2D)、视频(3D)、文本(1D) |
输入相关的其他属性 |
输入 + 输出令牌:16K;最大分辨率由12个图块布局约束决定,每个图块为512 × 512像素;通道数:3通道(RGB);不支持Alpha通道(无透明度) |
输出类型 |
文本 |
输出格式 |
字符串 |
输出参数 |
1D |
输出相关的其他属性 |
输入 + 输出令牌:16K |
我们的AI模型设计和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(如GPU核心)和软件框架(如CUDA库),与仅使用CPU的解决方案相比,该模型可实现更快的训练和推理时间。
软件集成
- 运行时引擎:TensorRT - LLM
- 支持的硬件微架构兼容性:H100 SXM 80GB
- 支持的操作系统:Linux
模型版本
Llama - 3.1 - Nemotron - Nano - VL - 8B - V1
训练/评估数据集
NV - 预训练和NV - CosmosNemotron - SFT用于训练和评估。
数据集的数据收集方法(训练和评估)
数据集的标注方法(训练和评估)
此外,数据集收集(用于训练和评估)包括内部和公共数据集的混合,旨在跨各种任务进行训练和评估。它包括:
• 内部数据集,使用公共商业图像和内部标签构建,支持对话建模和文档分析等任务。
• 公共数据集,源自公开可用的图像和注释,适用于图像字幕和视觉问答等任务。
• 合成数据集,为特定任务(如表格数据理解)以编程方式生成。
• 专门用于安全对齐、函数调用和特定领域任务(如科学图表、金融问答)的数据集。
评估基准
基准测试 |
得分 |
MMMU Val(以chatGPT为评判) |
48.2% |
AI2D |
85.0% |
ChartQA |
86.3% |
InfoVQA Val |
77.4% |
OCRBench |
839 |
OCRBenchV2英语 |
60.1% |
OCRBenchV2中文 |
37.9% |
DocVQA val |
91.2% |
VideoMME |
54.7% |
推理
引擎:TTensorRT - LLM
测试硬件:
伦理考量
NVIDIA认为可信AI是一项共同责任,我们已制定政策和实践,以支持广泛的AI应用开发。当按照我们的服务条款下载或使用时,开发人员应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。有关该模型伦理考量的更多详细信息,请参阅模型卡片++ 可解释性、偏差、安全与保障和隐私子卡片。请在此报告安全漏洞或NVIDIA AI相关问题。
用户对模型的输入和输出负责。用户在部署前有责任确保该模型的安全集成,包括实施防护措施和其他安全机制。
这些模型生成的输出可能包含政治内容或其他潜在的误导性信息、内容安全和安全问题,或与我们的监督无关的意外偏差。
📄 许可证
您对该模型的使用受NVIDIA开放许可协议的约束。
Llama 3.1社区模型许可证;基于Llama构建。