R

RADIO L

由nvidia開發
AM-RADIO是NVIDIA研究院開發的視覺基礎模型,採用聚合式架構實現多領域統一表徵,適用於各類計算機視覺任務。
下載量 23.27k
發布時間 : 7/23/2024

模型概述

AM-RADIO是一個通用的視覺基礎模型,能夠同時提取圖像的整體概念表徵和局部空間特徵,支持從圖像分類到語義分割等多種計算機視覺任務。

模型特點

雙輸出表徵
同時輸出圖像整體概念表徵(類似ViT的cls_token)和局部空間特徵,適應不同粒度的視覺任務需求
多領域統一
通過聚合式架構實現跨領域的視覺特徵統一表徵
靈活特徵轉換
支持將空間特徵轉換為標準(B,D,H,W)張量格式,便於集成到各類計算機視覺流程中

模型能力

圖像整體概念表徵提取
局部空間特徵提取
語義分割支持
LLM視覺特徵集成

使用案例

計算機視覺
圖像分類
利用summary特徵進行圖像整體分類
語義分割
使用spatial_features進行像素級預測
多模態系統
LLM視覺輸入
為大型語言模型提供視覺特徵輸入
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase