RADIO开源视觉特征提取模型 - 免费将图像转为嵌入向量，支持下游任务

首页

RADIO

由 nvidia 开发

由NVIDIA研发的视觉特征提取模型，可将图像转换为嵌入向量供下游任务使用

图像特征提取

Transformers

#多分辨率视觉特征提取 #跨域通用嵌入 #动态块尺寸适配

下载量 5,166

发布时间 : 12/11/2023

模型简介

基于视觉Transformer架构的图像特征提取模型，支持灵活输入分辨率，生成的嵌入向量适用于图像分类、语义分割等计算机视觉任务

模型特点

灵活输入分辨率

支持最高2048x2028分辨率输入（以16像素为增量），适应不同应用场景需求

双输出特征

同时输出全局特征(summary)和局部空间特征(spatial_features)，满足不同任务需求

大规模预训练

基于128亿张互联网图像的DataComp数据集预训练，具有强大的特征提取能力

模型能力

图像特征提取

图像分类

语义分割

视觉嵌入生成

使用案例

计算机视觉

图像分类

使用RADIO提取的图像嵌入向量作为下游分类器的输入

语义分割

利用RADIO的空间特征进行密集预测任务

🚀 AM - RADIO：将所有领域归为一体

AM - RADIO 是一款用于视觉特征提取的模型，能够生成图像嵌入，供下游模型进行图像分类等任务。该模型仅用于研究和开发。

🚀 快速开始

从 HuggingFace 拉取模型

要从 HuggingFace 拉取模型，你需要先登录：

huggingface-cli login

然后可以在 Python 脚本中拉取模型：

from transformers import AutoModel
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True)

或者，你可以指定访问令牌：

access_token = "<YOUR ACCESS TOKEN"
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True, token=access_token)

✨ 主要特性

能够执行视觉特征提取，生成可用于下游模型进行图像分类的图像嵌入。
模型输入维度灵活，支持一定范围内的输入尺寸。

📦 安装指南

文档未提及具体安装步骤，可参考相关代码仓库中的说明。

💻 使用示例

基础用法

RADIO 将返回一个包含两个张量的元组。summary 类似于 ViT 中的 cls_token，用于表示整个图像的总体概念，形状为 $(B,C)$，其中 $B$ 是批次维度，$C$ 是通道数。spatial_features 表示更局部的内容，适用于密集任务（如语义分割）或集成到 LLM 中，形状为 $(B,T,D)$，其中 $T$ 是扁平化的空间令牌，$D$ 是空间特征的通道数。通常情况下 $C \neq D$。

高级用法

将 spatial_features 转换为空间张量格式，可以结合模型的下采样大小和输入张量形状来完成。对于 'radio_v1'，补丁大小为 14：

from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)

得到的张量形状为 $(B,D,H,W)$，这是计算机视觉模型中常见的形状。

📚 详细文档

模型概述

该模型由 Mike Ranzinger、Greg Heinrich、Jan Kautz、Pavlo Molchanov 开发，由 NVIDIA Research 提供。它主要用于视觉特征提取，仅用于研究和开发。

模型架构

架构类型：神经网络
网络架构：视觉变换器

输入

输入类型：图像
输入格式：红、绿、蓝（RGB）
输入参数：二维（2D）
其他输入相关属性：图像分辨率最高可达 2048x2028，以 16 像素为增量

输出

输出类型：嵌入
输出格式：张量
输出参数：2D
其他输出相关属性：需要下游模型来利用图像特征

软件集成

运行时引擎：TAO - 24.10
支持的硬件微架构兼容性：NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Jetson、NVIDIA Hopper、NVIDIA Lovelace、NVIDIA Pascal、NVIDIA Turing、NVIDIA Volta
首选/支持的操作系统：Linux、Linux 4 Tegra、QNX、Windows

预训练模型

可参考 model_results.csv 了解模型版本及其指标。链接：https://huggingface.co/collections/nvidia/radio - 669f77f1dd6b153f007dd1c6

训练、测试和评估数据集

训练数据集

链接：https://www.datacomp.ai/
数据收集方法：自动化
标注方法：不适用（不需要标签）
属性：使用 Common Crawl 从互联网收集的 128 亿张不同图像

评估数据集

链接：ImageNet
数据收集方法：自动化
标注方法：人工
属性：该数据集涵盖 1000 个对象类别，包含 1,281,167 张训练图像、50,000 张验证图像和 100,000 张测试图像

推理

引擎：PyTorch
测试硬件：A100

引用

如果你发现这个仓库有用，请考虑给它加星并引用：

@InProceedings{Ranzinger_2024_CVPR,
    author    = {Ranzinger, Mike and Heinrich, Greg and Kautz, Jan and Molchanov, Pavlo},
    title     = {AM - RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2024},
    pages     = {12490 - 12500}
}

@misc{ranzinger2024phisdistributionbalancinglabelfree,
      title={PHI - S: Distribution Balancing for Label - Free Multi - Teacher Distillation}, 
      author={Mike Ranzinger and Jon Barker and Greg Heinrich and Pavlo Molchanov and Bryan Catanzaro and Andrew Tao},
      year={2024},
      eprint={2410.01680},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2410.01680}, 
}

伦理考量（仅适用于 NVIDIA 模型）

NVIDIA 认为可信 AI 是一项共同责任，我们已经制定了政策和实践，以支持广泛的 AI 应用开发。当按照我们的服务条款下载或使用该模型时，开发者应与内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。

🔧 技术细节

RADIOv1 注意事项

我们训练的这个模型在输入维度上具有灵活性，它支持宽度和高度在 $[14, 1008]$ 范围内的输入，只要两个轴都能被 14 整除。我们发现，在 $H = W = 378$ 时，摘要令牌效果最佳（尽管 $[192, 448]$ 范围也效果良好）。对于空间任务，我们使用 $H = W = 518$ 进行语义分割的线性探测，对于更高分辨率的任务可能效果更好。当分辨率达到 1008 时，为了获得最佳结果，模型可能需要在该分辨率下进行额外的微调。

虽然不要求 $H = W$，但我们尚未在这种设置下专门训练或测试该模型。