C

C RADIOv2 B

由nvidia開發
C-RADIOv2是NVIDIA開發的視覺特徵提取模型,提供多種尺寸版本,適用於圖像理解和密集視覺任務。
下載量 404
發布時間 : 1/13/2025

模型概述

該模型基於視覺Transformer架構,用於生成圖像嵌入,可被下游模型用於圖像分類、語義分割等任務。提供基礎版、大型版、巨型版和超巨型版四種參數規模。

模型特點

多尺寸版本
提供從9000萬到18億參數的不同規模版本,適應不同計算需求
長時訓練
比v1版本多訓練40萬步,達到100萬步訓練量
數據平衡技術
使用逆頻率採樣進行數據平衡,並通過PHI標準化平衡教師分佈
高分辨率支持
支持最高2048x2028像素輸入,以16像素為增量

模型能力

圖像特徵提取
圖像級理解
密集視覺處理
視覺語言模型集成

使用案例

計算機視覺
圖像分類
使用模型生成的嵌入進行圖像分類任務
語義分割
利用空間特徵進行像素級語義分割
深度估計
基於圖像嵌入估計場景深度
多模態應用
視覺語言模型
將圖像特徵集成到大型語言模型中
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase