D

DAM 3B

由nvidia開發
DAM-3B是一個30億參數的視覺語言模型,能夠根據用戶指定的圖像區域生成精細化局部描述。
下載量 1,417
發布時間 : 4/21/2025

模型概述

該模型接收用戶以點/框/塗鴉/掩碼形式指定的圖像區域輸入,生成圖像的精細化局部描述。通過創新的焦點提示機制和採用門控交叉注意力增強的局部視覺骨幹網絡,整合全圖上下文與細粒度局部細節。

模型特點

精細化局部描述
能夠針對用戶指定的任意圖像區域生成詳細描述
多形式區域指定
支持點、框、塗鴉、掩碼等多種形式指定關注區域
焦點提示機制
創新的注意力機制整合全圖上下文與局部細節
門控交叉注意力
增強的局部視覺骨幹網絡提升描述質量

模型能力

圖像區域描述生成
多形式區域輸入處理
細粒度視覺理解

使用案例

計算機視覺研究
精細化圖像理解
用於研究模型對圖像局部細節的理解能力
輔助技術
視覺輔助描述
為視障人士提供圖像特定區域的詳細描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase