模型简介
模型特点
模型能力
使用案例
🚀 Restor基于SegFormer的TCD模型
这是一个语义分割模型,能够在高分辨率(10厘米/像素)的航空图像中描绘树木覆盖情况。该模型可助力用户精准评估树冠覆盖范围,为生态研究和环境保护提供有力支持。
🚀 快速开始
你可以在 此Colab笔记本 中查看一个简短的推理示例。
若要进行端到端的使用,我们建议用户参考我们的预测和训练 管道,它支持对任意大的图像进行分块预测、报告输出等功能。
✨ 主要特性
- 高精度分割:能够在高分辨率(10 厘米/像素)的航空图像中准确描绘树木覆盖情况。
- 全球适用性:基于全球多样化的航空影像进行训练,适用于不同地区的树木覆盖检测。
- 灵活可扩展:支持对模型进行微调,以适应不同分辨率的图像和特定的应用场景。
📦 安装指南
使用我们的管道为此模型进行典型训练的命令如下:
tcd-train semantic segformer-mit-b5 data.output= ... data.root=/mnt/data/tcd/dataset/holdout data.tile_size=1024
💻 使用示例
基础用法
你可以使用以下代码轻松加载预处理器:
from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained('restor/tcd-segformer-mit-b5')
高级用法
本模型适用于对单个图像块进行推理。若要对大型正射镶嵌图进行预测,则需要一个更高级的框架来管理源图像的分块和预测结果的拼接。我们的仓库提供了这样一个管道的全面参考实现,并已在超大型图像(国家规模)上进行了测试。
📚 详细文档
模型详情
模型描述
这是一个语义分割模型,在全球航空影像上进行训练,能够在类似图像中准确描绘树木覆盖情况。该模型不检测单个树木,而是提供每个像素的树木/非树木分类。
- 开发者:Restor / 苏黎世联邦理工学院
- 资助方:此项目通过 Google.org 影响力赠款 得以实现。
- 模型类型:语义分割(二分类)
- 许可证:模型训练代码根据 Apache-2 许可证提供。NVIDIA 已根据其自身的研究许可证发布了 SegFormer。用户在部署前应检查此许可证的条款。此模型在 CC BY-NC 影像上进行训练。
- 微调基础模型:SegFormer 系列
SegFormer 是 Pyramid Vision Transformer v2 模型的一个变体,具有许多相同的结构特征和一个语义分割解码头。在功能上,该架构与特征金字塔网络(FPN)非常相似,因为输出预测基于在不同空间分辨率下组合网络不同阶段的特征。
模型来源
- 仓库:https://github.com/restor-foundation/tcd
- 论文:我们将很快发布预印本。
应用场景
直接使用
此模型适用于对单个图像块进行推理。若要对大型正射镶嵌图进行预测,则需要一个更高级的框架来管理源图像的分块和预测结果的拼接。我们的仓库提供了这样一个管道的全面参考实现,并已在超大型图像(国家规模)上进行了测试。
模型将为整个图像提供预测。在大多数情况下,用户可能希望预测图像中特定区域的覆盖情况,例如研究地块或其他地理边界。如果你对图像中的树木覆盖情况进行预测,应该对结果进行某种感兴趣区域分析。我们链接的管道仓库支持基于形状文件的区域分析。
非适用场景
虽然我们在全球多样化的影像上训练了该模型,但训练数据集中某些生态生物群落的代表性不足,性能可能会有所不同。因此,我们鼓励用户在将模型用于任何关键任务之前,先使用自己的影像进行实验。
该模型在分辨率为 10 厘米/像素的影像上进行训练。你可能能够在其他地理空间分辨率下获得良好的预测结果,但结果可能不可靠。特别是,该模型本质上是在寻找“看起来像树木的东西”,这高度依赖于分辨率。如果你想常规预测更高或更低分辨率的图像,应该在自己的或重新采样的训练数据集上对该模型进行微调。
该模型不预测生物量、树冠高度或其他派生信息。它仅预测某个像素被树冠覆盖的可能性。
就目前而言,该模型不适用于碳信用额估算。
偏差、风险和局限性
该模型的主要局限性在于对看起来像树木或可能被误认为是树木的物体产生误报。例如,大型灌木丛、灌木或看起来像树冠的地被植物。
用于训练此模型的数据集由非专家进行标注。考虑到数据集的大小、独立测试数据的结果以及 Restor 在合作伙伴数据上的实际使用经验,我们认为这是一个合理的权衡。然而,数据集中几乎肯定存在错误标签,这可能会导致模型输出中的错误预测或其他偏差。我们观察到模型倾向于以一种可能正确的方式与训练数据“不一致”(即标签的总体统计数据良好),我们正在努力重新评估所有训练数据,以去除虚假标签。
我们提供交叉验证结果,以对预测性能进行可靠估计,以及在独立影像(即模型从未见过的图像)上的结果,以便用户可以自行评估。我们不提供任何准确性保证,用户应该对任何“关键任务”或生产用途进行自己的独立测试。
没有什么能替代在自己的数据上尝试模型并进行自己的评估;我们强烈鼓励进行实验!
训练详情
训练数据
训练数据集可在 此处 找到,你可以在那里找到有关数据收集和标注过程的更多详细信息。我们的图像标签大多根据 CC-BY 4.0 许可证发布,还有较小部分的 CC BY-NC 和 CC BY-SA 影像。
训练过程
我们在训练期间使用 5 折交叉验证过程来调整超参数,然后在“完整”训练集上进行训练,并在保留的图像集上进行评估。此仓库主分支中的模型应被视为发布版本。
我们使用 Pytorch Lightning 作为训练框架,超参数如下所列。训练过程很简单,对于有训练深度神经网络经验的人来说应该很熟悉。
预处理
假设你使用 transformers
库,此仓库包含一个可与模型一起使用的预处理器配置。
你可以使用以下代码轻松加载此预处理器:
from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained('restor/tcd-segformer-mit-b5')
请注意,我们不调整输入图像的大小(以便尊重源图像的地理空间比例),并且我们假设归一化是在这个处理步骤中进行的,而不是作为数据集变换。
训练超参数
属性 | 详情 |
---|---|
图像大小 | 1024 像素正方形 |
学习率 | 初始为 1e4 - 1e5 |
学习率调度 | 高原衰减 |
优化器 | AdamW |
数据增强 | 随机裁剪到 1024x1024,任意旋转,翻转,颜色调整 |
训练轮数 | 交叉验证期间为 75 轮以确保收敛;最终模型为 50 轮 |
归一化 | ImageNet 统计数据 |
速度、大小和时间
你应该能够在 CPU 上评估该模型(即使是 mit-b5),但如果你尝试推理大尺寸的图像块,你将需要大量可用的 RAM。一般来说,考虑到输出分割掩码的固定大小,我们发现 1024 像素的输入是你能处理的最大尺寸(即,以 1024x1024 像素的批量模式进行推理可能比尝试预测单个 2048x2048 像素的图像更好)。
所有模型都在一台配备 24 GB VRAM(NVIDIA RTX3090)的单个 GPU 上进行训练,该 GPU 连接到一台具有 64GB RAM 的 32 核机器。除了最大的模型外,所有模型都可以在一天内使用此规格的机器进行训练。最小的模型训练时间不到半天,而最大的模型训练时间略超过一天。
我们从用户(实地)收到的反馈是,土地所有者通常对查看航空调查结果感兴趣,但在偏远地区,数据带宽往往是一个限制因素。我们的目标之一是支持这种实地使用,以便进行调查的用户可以在合理的时间内(即大约一小时)离线处理结果。
评估
我们报告了在 OAM-TCD 保留分割上的评估结果。
测试数据
训练数据集可在 此处 找到。
此模型(main
分支)在所有 train
图像上进行训练,并在 test
(保留)图像上进行测试。
评估指标
我们报告了保留数据集上的 F1 分数、准确率和交并比(IoU),以及 5 折交叉验证分割的结果。交叉验证结果在以下图表中以最小/最大误差线表示。
评估结果
环境影响
此估计是此处介绍的 SegFormer 系列模型的最大(就训练时间而言)估计。较小的模型,如 mit-b0
,训练时间不到半天。
- 硬件类型:NVIDIA RTX3090
- 使用时长:< 36 小时
- 碳排放:每个模型 5.44 千克二氧化碳当量
碳排放使用 Lacoste 等人(2019) 提出的 机器学习影响计算器 进行估计。
此估计未考虑实验所需的时间、失败的训练运行等。例如,由于我们使用了交叉验证,每个模型实际上需要大约 6 倍的估计时间 - 每一折一次运行,再加上最终运行。
在野外工作中,在 CPU 上进行高效推理是可能的,但代价是推理延迟。一次典型的单电池无人机飞行数据可以在几分钟内处理完毕。
🔧 技术细节
引用和联系方式
BibTeX:
本文已被 NeurIPS 2024 的数据集和基准测试赛道接受。
最终版本确认并在会议记录上线后,引用信息将更新。
@inproceedings{restortcd,
author = {Veitch-Michaelis, Josh and Cottam, Andrew and Schweizer, Daniella Schweizer and Broadbent, Eben N. and Dao, David and Zhang, Ce and Almeyda Zambrano, Angelica and Max, Simeon}
title = {OAM-TCD: A globally diverse dataset of high-resolution tree cover maps},
booktitle = {Advances in Neural Information Processing Systems},
pages = {1--12},
publisher = {Curran Associates, Inc.},
volume = {37},
year = {2024}
如有问题或需要进一步信息,请联系 josh [at] restor.eco。
📄 许可证
本模型训练代码根据 Apache-2 许可证提供。NVIDIA 已根据其自身的研究许可证发布了 SegFormer。用户在部署前应检查此许可证的条款。此模型在 CC BY-NC 影像上进行训练。











