🚀 OceanSAR - 1模型
OceanSAR - 1是OceanSAR系列中的首个基础模型,专为合成孔径雷达(SAR)图像分析而设计,尤其专注于海洋观测。该模型采用了新颖的动态数据集剪枝策略,提高了训练效率和特征质量。
🚀 快速开始
模型使用示例
import torch
from transformers import AutoModel
model = AutoModel.from_pretrained("galeio-research/OceanSAR-1")
dummy_image = torch.randn(1, 1, 256, 256)
with torch.no_grad():
outputs = model(dummy_image)
features = outputs.pooler_output
✨ 主要特性
模型用途
- 直接使用:该模型旨在作为SAR图像分析的特征提取器,尤其适用于海洋观测任务。可用于从SAR图像中提取特征,以及为下游任务进行迁移学习。
- 下游使用:该模型已在三个下游任务上得到验证,包括对SAR图像中10种地球物理现象的分类、海洋波高预测的回归任务以及表面风速估计的回归任务。
模型优势
采用新颖的动态数据集剪枝策略,可最大化数据集的多样性和平衡性,降低计算成本,提高模型在下游任务中的性能,且无需预先存在的特征提取器。
📦 安装指南
使用该模型需要安装以下依赖:
- PyTorch >= 1.8.0
- Transformers >= 4.30.0
- torchvision >= 0.9.0
💻 使用示例
基础用法
import torch
from transformers import AutoModel
model = AutoModel.from_pretrained("galeio-research/OceanSAR-1")
dummy_image = torch.randn(1, 1, 256, 256)
with torch.no_grad():
outputs = model(dummy_image)
features = outputs.pooler_output
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
视觉基础模型(ResNet50/ViT变体) |
训练数据 |
Sentinel - 1波模式(WV)SAR图像(2015 - 2024年) |
训练制度 |
采用动态数据集剪枝的DINO自监督学习 |
下游任务验证
- TenGeoP分类:对SAR图像中的10种地球物理现象进行分类。
- 有效波高估计:海洋波高预测的回归任务。
- 风速预测:表面风速估计的回归任务。
评估结果
该模型在三个下游任务(线性探测)上达到了最先进的性能:
- TenGeoP分类:
- ResNet50:准确率75.5%
- ViT - S/16:准确率78.6%
- ViT - S/8:准确率82.1%
- ViT - B/8:准确率83.6%
- 有效波高估计:
- 均方根误差(RMSE):0.63 - 0.72米(取决于架构)
- 风速预测:
- 均方根误差(RMSE):1.37 - 1.43米/秒(取决于架构)
🔧 技术细节
训练数据
- 数据集:Sentinel - 1波模式(WV)SAR图像
- 时间范围:2015 - 2024年
- 规模:约1200万张图像
- 预处理:
- 空间下采样至50米分辨率
- 动态数据集剪枝以保证多样性和平衡性
- 从训练集中排除验证图像
动态数据集剪枝
该模型使用的新颖动态数据集剪枝策略具有以下特点:
- 最大化数据集的多样性和平衡性
- 降低计算成本
- 提高模型在下游任务中的性能
- 无需预先存在的特征提取器
硬件要求
建议使用至少具有8GB显存的GPU。
📄 许可证
本模型采用Apache License 2.0许可。
📚 引用
@article{kerdreux2025efficientselfsupervisedlearningearth,
title={Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation},
author={Kerdreux, Thomas and Tuel, Alexandre and Febvre, Quentin and Mouche, Alexis and Chapron, Bertrand},
journal={arXiv preprint arXiv:2504.06962},
year={2025},
eprint={2504.06962},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2504.06962},
}
🙏 致谢
本工作获得了GENCI分配的2025 - [A0171015666],得以使用IDRIS和TGCC的高性能计算资源。