L

Llama 3.1 Nemotron Nano VL 8B V1

由 nvidia 开发
Llama-3.1-Nemotron-Nano-VL-8B-V1是一款先进的文档智能视觉语言模型,能够对图像和视频进行查询与总结,支持多环境部署。
下载量 1,092
发布时间 : 6/3/2025

模型简介

该模型是一款领先的文档智能视觉语言模型,能够对现实或虚拟世界中的图像和视频进行查询和总结。支持在数据中心、云端和边缘设备等多种环境中部署,广泛应用于图像分析、问答等多个领域。

模型特点

强大的文档智能
能够对图像和视频进行查询和总结,支持多模态输入和输出。
多环境部署
可在数据中心、云端和边缘设备(如Jetson Orin和笔记本电脑)上部署,支持AWQ 4bit量化和TinyChat框架。
多模态支持
支持图像、视频和文本输入,输出为文本,适用于多种任务。

模型能力

图像分析
视频总结
文本生成
多图像比较
光学字符识别
交互式问答

使用案例

文档智能
图像总结
对单张或多张图像进行内容总结和描述。
文本-图像分析
结合文本和图像进行综合分析,生成详细描述或回答相关问题。
视觉问答
图像交互式问答
根据图像内容回答用户提出的问题。
多图像比较与对比
比较多张图像的相似性和差异性,生成对比分析结果。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase