D

DAM 3B Video

由nvidia開發
DAM-3B-Video是一個30億參數的視覺語言模型,能夠根據用戶指定的圖像/視頻區域生成精細化局部描述。
下載量 426
發布時間 : 4/21/2025

模型概述

該模型通過焦點提示機制和門控交叉注意力增強的局部視覺骨幹網絡,整合全圖/視頻上下文與細粒度局部細節,生成針對視覺區域的詳細描述。

模型特點

精細化局部描述
能夠針對用戶以點/框/塗鴉/掩碼形式指定的圖像/視頻區域生成詳細描述
焦點提示機制
創新的焦點提示機制幫助模型集中注意力於用戶指定的區域
門控交叉注意力增強
採用門控交叉注意力增強的局部視覺骨幹網絡,整合全局上下文與局部細節
多模態輸入支持
支持圖像、視頻、文本和二值掩碼等多種輸入形式

模型能力

圖像區域描述生成
視頻區域描述生成
多模態輸入處理
精細化局部特徵識別

使用案例

科研應用
計算機視覺研究
用於視覺語言模型的研究和開發
非商業應用
教育演示
展示先進的視覺語言理解能力
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase