D

DAM 3B Self Contained

由nvidia開發
DAM-3B是一個能夠根據用戶指定的圖像區域(點/框/塗鴉/掩碼)生成精細化局部描述的視覺語言模型。
下載量 824
發布時間 : 4/21/2025

模型概述

該模型通過焦點提示和局部視覺骨幹網絡整合全圖上下文與細粒度局部細節,用於生成圖像的精細化局部描述。

模型特點

精細化局部描述
能夠根據用戶指定的圖像區域生成詳細的局部描述
多模態輸入支持
支持點、框、塗鴉和掩碼等多種形式的區域指定方式
上下文整合
通過焦點提示和門控交叉注意力機制整合全圖上下文與局部細節

模型能力

圖像區域描述生成
多模態輸入處理
精細化視覺理解

使用案例

計算機視覺
圖像標註
為圖像中的特定區域生成詳細描述
提高圖像標註的精確度和細節
視覺輔助
為視障人士提供圖像內容的詳細描述
增強視覺信息的可訪問性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase