N

NVLM D 72B

由nvidia開發
NVLM 1.0 是一系列前沿的多模態大語言模型,在視覺語言任務上取得了最先進的結果,可與領先的專有模型和開放訪問模型相媲美。
下載量 14.33k
發布時間 : 9/30/2024

模型概述

該模型能夠執行視覺語言和純文本任務,包括光學字符識別、多模態推理、定位、常識推理、世界知識利用和編碼。

模型特點

多模態能力
支持視覺語言和純文本任務,具備強大的多模態推理能力。
性能優越
在視覺語言任務上取得了最先進的結果,可與 GPT-4o 等領先模型媲美。
純文本性能提升
在多模態訓練後,其純文本性能比其 LLM 骨幹模型有所提升。

模型能力

光學字符識別
多模態推理
定位
常識推理
世界知識利用
編碼

使用案例

視覺語言任務
圖像描述生成
根據輸入圖像生成詳細的文本描述。
視覺問答
回答關於輸入圖像的問題。
純文本任務
文本生成
生成連貫且上下文相關的文本。
常識推理
基於常識進行邏輯推理。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase