R

RADIO

由nvidia開發
由NVIDIA研發的視覺特徵提取模型,可將圖像轉換為嵌入向量供下游任務使用
下載量 5,166
發布時間 : 12/11/2023

模型概述

基於視覺Transformer架構的圖像特徵提取模型,支持靈活輸入分辨率,生成的嵌入向量適用於圖像分類、語義分割等計算機視覺任務

模型特點

靈活輸入分辨率
支持最高2048x2028分辨率輸入(以16像素為增量),適應不同應用場景需求
雙輸出特徵
同時輸出全局特徵(summary)和局部空間特徵(spatial_features),滿足不同任務需求
大規模預訓練
基於128億張互聯網圖像的DataComp數據集預訓練,具有強大的特徵提取能力

模型能力

圖像特徵提取
圖像分類
語義分割
視覺嵌入生成

使用案例

計算機視覺
圖像分類
使用RADIO提取的圖像嵌入向量作為下游分類器的輸入
語義分割
利用RADIO的空間特徵進行密集預測任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase