🚀 Restor基于SegFormer的TCD模型
这是一个语义分割模型,能够在高分辨率(10厘米/像素)的航空图像中描绘树木覆盖情况。它能解决从航空图像中准确识别树木覆盖范围的问题,为生态研究和评估提供了有力支持。
🚀 快速开始
你可以在 这个Colab笔记本 中查看一个简单的推理示例。
若要进行端到端的使用,我们建议用户参考我们的预测和训练 管道,它还支持对任意大的图像进行分块预测、报告输出等功能。
✨ 主要特性
- 该语义分割模型基于全球航空影像进行训练,能够在类似图像中准确描绘树木覆盖情况。
- 模型不检测单棵树木,而是提供每个像素的树木/非树木分类。
- 模型类型为语义分割(二分类)。
- 基于SegFormer架构,其功能与特征金字塔网络(FPN)类似,输出预测基于不同空间分辨率下网络不同阶段的特征组合。
📦 安装指南
使用我们的管道对该模型进行典型训练的命令如下:
tcd-train semantic segformer-mit-b0 data.output= ... data.root=/mnt/data/tcd/dataset/holdout data.tile_size=1024
💻 使用示例
基础用法
from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained('restor/tcd-segformer-mit-b0')
高级用法
暂未提供高级用法的相关代码示例。
📚 详细文档
模型详情
模型描述
该语义分割模型在全球航空影像上进行训练,能够在类似图像中准确描绘树木覆盖情况。模型不检测单棵树木,而是提供每个像素的树木/非树木分类。
- 开发者:Restor / 苏黎世联邦理工学院
- 资助方:该项目通过 Google.org影响力赠款 得以实现。
- 模型类型:语义分割(二分类)
- 许可证:模型训练代码根据Apache 2许可证提供。NVIDIA根据其研究许可证发布了SegFormer。用户在部署前应检查此许可证的条款。该模型在CC BY - NC影像上进行训练。
- 微调自:SegFormer系列
SegFormer是金字塔视觉变换器v2模型的一个变体,具有许多相同的结构特征和一个语义分割解码头。在功能上,该架构与特征金字塔网络(FPN)非常相似,因为输出预测基于不同空间分辨率下网络不同阶段的特征组合。
模型来源
- 仓库:https://github.com/restor-foundation/tcd
- 论文:我们将很快发布预印本。
用途
直接使用
该模型的主要用例是从航空图像中评估树冠覆盖率(即研究区域被树冠覆盖的百分比)。该模型适用于对单个图像块进行推理。若要对大型正射影像进行预测,则需要一个更高级的框架来管理源图像的分块和拼接预测结果。我们的仓库提供了这样一个管道的全面参考实现,并已在超大型图像(国家规模)上进行了测试。
超出范围的使用
- 虽然我们在全球多样化的影像上训练了该模型,但训练数据集中某些生态生物群落的代表性不足,性能可能会有所不同。因此,我们鼓励用户在将该模型用于任何关键任务之前,先在自己的影像上进行实验。
- 该模型在10厘米/像素的分辨率影像上进行训练。你可能能够在其他地理空间分辨率下获得良好的预测结果,但结果可能不可靠。特别是,该模型本质上是在寻找“看起来像树的东西”,这高度依赖于分辨率。如果你想常规地预测更高或更低分辨率的图像,你应该在自己的数据集或重采样后的训练数据集上微调该模型。
- 该模型不预测生物量、树冠高度或其他衍生信息。它仅预测某个像素被树冠覆盖的可能性。
- 目前,该模型不适合用于碳信用额估计。
偏差、风险和局限性
- 该模型的主要局限性是在看起来像树或可能被误认为是树的物体上出现误报。例如,大型灌木丛、灌木或看起来像树冠的地被植物。
- 用于训练该模型的数据集由非专家进行标注。考虑到数据集的规模、独立测试数据的结果,以及Restor在合作伙伴数据上的实际使用中的经验评估,我们认为这是一个合理的权衡。然而,数据集中几乎肯定存在错误标签,这可能导致模型输出中的错误预测或其他偏差。我们观察到,模型与训练数据的“分歧”可能是正确的(即标签的总体统计数据良好),我们正在努力重新评估所有训练数据,以去除虚假标签。
- 我们提供交叉验证结果,以对预测性能进行可靠估计,以及在独立影像(即模型从未见过的图像)上的结果,以便用户可以自行评估。我们不提供任何准确性保证,用户应针对任何“关键任务”或生产用途进行自己的独立测试。
训练详情
训练数据
训练数据集可在 此处 找到,你可以在其中找到有关数据收集和标注过程的更多详细信息。我们的图像标签大多根据CC - BY 4.0许可证发布,还有一小部分CC BY - NC和CC BY - SA影像。
训练过程
我们在训练过程中使用了5折交叉验证来调整超参数,然后在“完整”训练集上进行训练,并在保留的图像集上进行评估。该仓库主分支中的模型应被视为发布版本。
我们使用 Pytorch Lightning 作为训练框架,超参数如下:
- 图像大小:1024像素正方形
- 学习率:初始为1e4 - 1e5
- 学习率调度:高原衰减
- 优化器:AdamW
- 数据增强:随机裁剪到1024x1024、任意旋转、翻转、颜色调整
- 训练轮数:交叉验证期间为75轮以确保收敛;最终模型为50轮
- 归一化:使用ImageNet统计数据
速度、大小和时间
你应该能够在CPU上评估该模型(即使是mit - b5),但如果你尝试推断大尺寸的图像块,你将需要大量可用的RAM。一般来说,考虑到输出分割掩码的固定大小,我们发现1024像素的输入是你能处理的最大尺寸(即,在1024x1024像素的批量模式下进行推理可能比尝试预测单个2048x2048像素的图像更好)。
所有模型都在配备24GB VRAM(NVIDIA RTX3090)的单个GPU上进行训练,该GPU连接到具有64GB RAM的32核机器。除最大的模型外,所有模型都可以在这种规格的机器上在一天内完成训练。最小的模型训练时间不到半天,而最大的模型训练时间略超过一天。
评估
测试数据
训练数据集可在 此处 找到。该模型(主分支)在所有“训练”图像上进行训练,并在“测试”(保留)图像上进行测试。

指标
我们报告了保留数据集上的F1分数、准确率和交并比(IoU),以及5折交叉验证分割的结果。交叉验证结果在以下图表中以最小/最大误差线的形式可视化。
结果

环境影响
此估计是此处呈现的SegFormer系列模型的最大(就训练时间而言)估计。较小的模型,如 mit - b0
,训练时间不到半天。
- 硬件类型:NVIDIA RTX3090
- 使用小时数:< 36
- 碳排放:每个模型5.44千克二氧化碳当量
碳排放使用 Lacoste等人(2019) 提出的 机器学习影响计算器 进行估计。此估计未考虑实验所需的时间、失败的训练运行等。例如,由于我们使用了交叉验证,每个模型实际上需要大约6倍于此估计的时间 - 每一折一次运行,加上最终运行。
在野外工作中,可以在CPU上进行高效推理,但会牺牲推理延迟。一次典型的单电池无人机飞行数据可以在几分钟内处理完毕。
引用
我们将很快提供论文的预印本版本。在此期间,请按以下方式引用:
BibTeX:
@unpublished{restortcd,
author = "Veitch-Michaelis, Josh and Cottam, Andrew and Schweizer, Daniella Schweizer and Broadbent, Eben N. and Dao, David and Zhang, Ce and Almeyda Zambrano, Angelica and Max, Simeon",
title = "OAM-TCD: A globally diverse dataset of high-resolution tree cover maps",
note = "In prep.",
month = "06",
year = "2024"
}
模型卡片作者
Josh Veitch - Michaelis,2024;代表数据集作者。
模型卡片联系方式
如有疑问或需要更多信息,请联系 josh [at] restor.eco。
📄 许可证
模型训练代码根据Apache 2许可证提供。NVIDIA根据其研究许可证发布了SegFormer。用户在部署前应检查此许可证的条款。该模型在CC BY - NC影像上进行训练。本模型整体许可证为CC。
信息表格
属性 |
详情 |
模型类型 |
语义分割(二分类) |
训练数据 |
可在 此处 找到,图像标签大多根据CC - BY 4.0许可证发布,还有一小部分CC BY - NC和CC BY - SA影像。 |