tcd-segformer-mit-b4开源语义分割模型 - 精准描绘航拍图像树木覆盖情况

首页

Tcd Segformer Mit B4

由 restor 开发

这是一个语义分割模型，能够从高分辨率（10厘米/像素）航拍图像中描绘树木覆盖情况。

图像分割

Transformers

开源协议:CC #航拍树冠分割 #全球生态评估 #高分辨率语义分割

下载量 49

发布时间 : 5/20/2024

模型简介

该语义分割模型基于全球航拍图像训练，能够准确描绘类似图像中的树木覆盖情况。模型不检测单棵树，而是提供逐像素的树木/非树木分类。

模型特点

高分辨率航拍图像处理

能够处理10厘米/像素的高分辨率航拍图像，精确识别树木覆盖区域。

全球多样性训练

基于全球多样化的生态区航拍图像训练，适应不同地区的树木识别需求。

高效推理能力

支持单电池无人机航拍数据的分钟级CPU推理，适合带宽受限地区使用。

多尺度特征融合

采用类似特征金字塔网络（FPN）的结构，输出基于网络不同阶段的多尺度特征融合结果。

模型能力

航拍图像分析

树木覆盖检测

像素级分类

大图像分块处理

使用案例

生态研究

树冠覆盖度评估

从航拍图像评估研究区域被树冠覆盖的百分比

提供精确的覆盖度统计

地理信息系统

区域植被分析

结合矢量文件对特定区域进行植被覆盖分析

支持基于地理边界的精确统计

🚀 Restor基于SegFormer的TCD模型

这是一个语义分割模型，可在高分辨率（10厘米/像素）航空图像中描绘树木覆盖情况，助力生态相关的图像分析工作。

🚀 快速开始

你可以在这个Colab笔记本中查看一个简单的推理示例。

若要进行端到端的使用，我们建议你使用我们的预测和训练管道，它还支持对任意大的图像进行分块预测、报告输出等功能。

✨ 主要特性

该语义分割模型在全球航空影像上进行了训练，能够准确描绘类似图像中的树木覆盖情况。
模型不检测单棵树木，而是提供每个像素的树木/非树木分类。
支持在CPU上进行评估，可满足野外工作的需求。

📦 安装指南

使用我们的管道对该模型进行典型训练的命令如下：

tcd-train semantic segformer-mit-b4 data.output= ... data.root=/mnt/data/tcd/dataset/holdout data.tile_size=1024

💻 使用示例

基础用法

from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained('restor/tcd-segformer-mit-b4')

高级用法

暂未提供高级用法的相关代码示例。

📚 详细文档

模型详情

模型描述

这个语义分割模型在全球航空影像上进行了训练，能够准确描绘类似图像中的树木覆盖情况。模型不检测单棵树木，而是提供每个像素的树木/非树木分类。

开发者：Restor / 苏黎世联邦理工学院
资助方：该项目通过 Google.org影响力赠款得以实现。
模型类型：语义分割（二分类）
许可证：模型训练代码根据Apache-2许可证提供。NVIDIA根据其自身的研究许可证发布了SegFormer。用户在部署前应检查此许可证的条款。该模型在CC BY - NC影像上进行训练。
微调基础模型：SegFormer系列

SegFormer是Pyramid Vision Transformer v2模型的一个变体，具有许多相同的结构特征和一个语义分割解码头。在功能上，该架构与特征金字塔网络（FPN）非常相似，因为输出预测是基于在不同空间分辨率下组合网络不同阶段的特征。

模型来源

仓库：https://github.com/restor-foundation/tcd
论文：我们将很快发布预印本。

使用场景

直接使用

该模型的主要用例是从航空图像中评估树冠覆盖率（即研究区域被树冠覆盖的百分比）。此模型适用于对单个图像块进行推理。要对大型正射镶嵌图进行预测，需要一个更高级的框架来管理源图像的分块和拼接预测结果。我们的仓库提供了这样一个管道的全面参考实现，并已在超大型图像（国家规模）上进行了测试。

模型将为整个图像提供预测结果。在大多数情况下，用户可能希望预测图像中特定区域的覆盖率，例如研究地块或其他地理边界。如果你要预测图像中的树木覆盖率，应该对结果进行某种感兴趣区域分析。我们链接的管道仓库支持基于形状文件的区域分析。

不适用场景

虽然我们在全球多样化的影像上训练了该模型，但训练数据集中某些生态生物群落的代表性不足，性能可能会有所不同。因此，我们鼓励用户在将模型用于任何关键任务之前，先使用自己的影像进行实验。
该模型在分辨率为10厘米/像素的影像上进行训练。你可能能够在其他地理空间分辨率下获得良好的预测结果，但结果可能不可靠。特别是，模型本质上是在寻找“看起来像树木的东西”，这高度依赖于分辨率。如果你想常规地预测更高或更低分辨率的图像，你应该在自己的数据集或重采样后的训练数据集上微调此模型。
该模型不预测生物量、树冠高度或其他衍生信息。它仅预测某个像素被树冠覆盖的可能性。
目前，该模型不适合用于碳信用额估算。

偏差、风险和局限性

该模型的主要局限性是在看起来像树木或可能被误认为是树木的物体上出现误报。例如，大型灌木丛、灌木或看起来像树冠的地被植物。

用于训练此模型的数据集由非专家进行标注。考虑到数据集的规模、独立测试数据的结果以及Restor在合作伙伴数据上的实际使用期间的经验评估，我们认为这是一个合理的权衡。然而，数据集中几乎肯定存在错误标签，这可能导致模型输出中的错误预测或其他偏差。我们观察到，模型与训练数据的“不一致”方式可能是正确的（即标签的总体统计数据良好），我们正在努力重新评估所有训练数据以去除错误标签。

我们提供交叉验证结果以对预测性能进行可靠估计，以及在独立影像（即模型从未见过的图像）上的结果，以便用户可以自行评估。我们不提供任何准确性保证，用户应该对任何“关键任务”或生产用途进行自己的独立测试。没有什么能替代在自己的数据上尝试模型并进行自己的评估，我们强烈鼓励进行实验！

训练详情

训练数据

训练数据集可在此处找到，你可以在其中找到有关数据收集和标注过程的更多详细信息。我们的图像标签大多根据CC - BY 4.0许可证发布，还有一小部分CC BY - NC和CC BY - SA影像。

训练过程

我们在训练期间使用了5折交叉验证过程来调整超参数，然后在“完整”训练集上进行训练，并在保留的图像集上进行评估。此仓库主分支中的模型应被视为发布版本。

我们使用 Pytorch Lightning 作为训练框架，超参数如下所示。训练过程很直接，任何有深度神经网络训练经验的人都应该熟悉。

预处理

假设你使用 transformers 库，此仓库包含一个可与模型一起使用的预处理器配置。你可以通过以下方式轻松加载此预处理器：

from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained('restor/tcd-segformer-mit-b4')

请注意，我们不调整输入图像的大小（以尊重源图像的地理空间比例），并且我们假设归一化是在这个处理步骤中进行的，而不是作为数据集变换。

训练超参数

图像大小：1024像素正方形
学习率：初始为1e - 4到1e - 5
学习率调度：高原衰减
优化器：AdamW
数据增强：随机裁剪到1024x1024、任意旋转、翻转、颜色调整
训练轮数：交叉验证期间为75轮以确保收敛；最终模型为50轮
归一化：使用ImageNet统计数据

速度、大小和时间

你应该能够在CPU上评估该模型（甚至到mit - b5），但是如果你尝试推断大尺寸的图像块，你将需要大量可用的RAM。一般来说，考虑到输出分割掩码的固定大小，我们发现1024像素的输入是你能处理的最大尺寸（即，以1024x1024像素的批量模式进行推理可能比尝试预测单个2048x2048像素的图像更好）。

所有模型都在配备24GB显存（NVIDIA RTX3090）的单个GPU上进行训练，该GPU连接到具有64GB RAM的32核机器。除最大的模型外，所有模型都可以在一天内使用此规格的机器完成训练。最小的模型训练时间不到半天，而最大的模型训练时间略超过一天。

我们从用户（在野外）收到的反馈是，土地所有者通常对查看航空调查结果感兴趣，但在偏远地区，数据带宽往往是一个限制因素。我们的目标之一是支持这种野外使用场景，以便进行调查飞行的用户可以在合理的时间内（即大约一小时）离线处理结果。

评估

测试数据

训练数据集可在此处找到。此模型（主分支）在所有“训练”图像上进行训练，并在“测试”（保留）图像上进行测试。

训练损失

评估指标

我们报告了保留数据集上的F1分数、准确率和交并比（IoU），以及5折交叉验证分割的结果。交叉验证结果在下面的图表中以最小/最大误差线的形式可视化。

评估结果

验证损失交并比准确率（前景） F1分数

环境影响

此估计是此处介绍的SegFormer系列模型的最大训练时间（方面）。较小的模型，如 mit - b0，训练时间不到半天。

硬件类型：NVIDIA RTX3090
使用时长：< 36小时
碳排放：每个模型相当于5.44千克二氧化碳排放量

碳排放使用 Lacoste等人（2019）提出的机器学习影响计算器进行估算。

此估计未考虑实验所需的时间、失败的训练运行等。例如，由于我们使用了交叉验证，每个模型实际上需要大约此估计值的6倍时间——每折一次运行，加上最终运行。

在CPU上进行高效推理对于野外工作是可行的，但会牺牲推理延迟。一次典型的单电池无人机飞行数据可以在几分钟内处理完成。

引用

我们将很快提供论文的预印本版本。在此期间，请按以下方式引用：

BibTeX：

@unpublished{restortcd,
  author = "Veitch-Michaelis, Josh and Cottam, Andrew and Schweizer, Daniella Schweizer and Broadbent, Eben N. and Dao, David and Zhang, Ce and Almeyda Zambrano, Angelica and Max, Simeon",
  title  = "OAM-TCD: A globally diverse dataset of high-resolution tree cover maps",
  note   = "In prep.",
  month  = "06",
  year   = "2024"
}

模型卡片作者

Josh Veitch - Michaelis，2024年；代表数据集作者。

模型卡片联系方式

如有疑问或需要更多信息，请联系 josh [at] restor.eco。

信息表格

属性	详情
模型类型	语义分割（二分类）
训练数据	可在此处找到，图像标签大多根据CC - BY 4.0许可证发布，还有一小部分CC BY - NC和CC BY - SA影像
许可证	模型训练代码根据Apache - 2许可证提供。NVIDIA根据其自身的研究许可证发布了SegFormer。用户在部署前应检查此许可证的条款。该模型在CC BY - NC影像上进行训练