模型概述
模型特點
模型能力
使用案例
🚀 Restor基於SegFormer的TCD模型
這是一個語義分割模型,能夠在高分辨率(10釐米/像素)的航空圖像中描繪樹木覆蓋情況。該模型可助力用戶精準評估樹冠覆蓋範圍,為生態研究和環境保護提供有力支持。
🚀 快速開始
你可以在 此Colab筆記本 中查看一個簡短的推理示例。
若要進行端到端的使用,我們建議用戶參考我們的預測和訓練 管道,它支持對任意大的圖像進行分塊預測、報告輸出等功能。
✨ 主要特性
- 高精度分割:能夠在高分辨率(10 釐米/像素)的航空圖像中準確描繪樹木覆蓋情況。
- 全球適用性:基於全球多樣化的航空影像進行訓練,適用於不同地區的樹木覆蓋檢測。
- 靈活可擴展:支持對模型進行微調,以適應不同分辨率的圖像和特定的應用場景。
📦 安裝指南
使用我們的管道為此模型進行典型訓練的命令如下:
tcd-train semantic segformer-mit-b5 data.output= ... data.root=/mnt/data/tcd/dataset/holdout data.tile_size=1024
💻 使用示例
基礎用法
你可以使用以下代碼輕鬆加載預處理器:
from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained('restor/tcd-segformer-mit-b5')
高級用法
本模型適用於對單個圖像塊進行推理。若要對大型正射鑲嵌圖進行預測,則需要一個更高級的框架來管理源圖像的分塊和預測結果的拼接。我們的倉庫提供了這樣一個管道的全面參考實現,並已在超大型圖像(國家規模)上進行了測試。
📚 詳細文檔
模型詳情
模型描述
這是一個語義分割模型,在全球航空影像上進行訓練,能夠在類似圖像中準確描繪樹木覆蓋情況。該模型不檢測單個樹木,而是提供每個像素的樹木/非樹木分類。
- 開發者:Restor / 蘇黎世聯邦理工學院
- 資助方:此項目通過 Google.org 影響力贈款 得以實現。
- 模型類型:語義分割(二分類)
- 許可證:模型訓練代碼根據 Apache-2 許可證提供。NVIDIA 已根據其自身的研究許可證發佈了 SegFormer。用戶在部署前應檢查此許可證的條款。此模型在 CC BY-NC 影像上進行訓練。
- 微調基礎模型:SegFormer 系列
SegFormer 是 Pyramid Vision Transformer v2 模型的一個變體,具有許多相同的結構特徵和一個語義分割解碼頭。在功能上,該架構與特徵金字塔網絡(FPN)非常相似,因為輸出預測基於在不同空間分辨率下組合網絡不同階段的特徵。
模型來源
- 倉庫:https://github.com/restor-foundation/tcd
- 論文:我們將很快發佈預印本。
應用場景
直接使用
此模型適用於對單個圖像塊進行推理。若要對大型正射鑲嵌圖進行預測,則需要一個更高級的框架來管理源圖像的分塊和預測結果的拼接。我們的倉庫提供了這樣一個管道的全面參考實現,並已在超大型圖像(國家規模)上進行了測試。
模型將為整個圖像提供預測。在大多數情況下,用戶可能希望預測圖像中特定區域的覆蓋情況,例如研究地塊或其他地理邊界。如果你對圖像中的樹木覆蓋情況進行預測,應該對結果進行某種感興趣區域分析。我們鏈接的管道倉庫支持基於形狀文件的區域分析。
非適用場景
雖然我們在全球多樣化的影像上訓練了該模型,但訓練數據集中某些生態生物群落的代表性不足,性能可能會有所不同。因此,我們鼓勵用戶在將模型用於任何關鍵任務之前,先使用自己的影像進行實驗。
該模型在分辨率為 10 釐米/像素的影像上進行訓練。你可能能夠在其他地理空間分辨率下獲得良好的預測結果,但結果可能不可靠。特別是,該模型本質上是在尋找“看起來像樹木的東西”,這高度依賴於分辨率。如果你想常規預測更高或更低分辨率的圖像,應該在自己的或重新採樣的訓練數據集上對該模型進行微調。
該模型不預測生物量、樹冠高度或其他派生信息。它僅預測某個像素被樹冠覆蓋的可能性。
就目前而言,該模型不適用於碳信用額估算。
偏差、風險和侷限性
該模型的主要侷限性在於對看起來像樹木或可能被誤認為是樹木的物體產生誤報。例如,大型灌木叢、灌木或看起來像樹冠的地被植物。
用於訓練此模型的數據集由非專家進行標註。考慮到數據集的大小、獨立測試數據的結果以及 Restor 在合作伙伴數據上的實際使用經驗,我們認為這是一個合理的權衡。然而,數據集中幾乎肯定存在錯誤標籤,這可能會導致模型輸出中的錯誤預測或其他偏差。我們觀察到模型傾向於以一種可能正確的方式與訓練數據“不一致”(即標籤的總體統計數據良好),我們正在努力重新評估所有訓練數據,以去除虛假標籤。
我們提供交叉驗證結果,以對預測性能進行可靠估計,以及在獨立影像(即模型從未見過的圖像)上的結果,以便用戶可以自行評估。我們不提供任何準確性保證,用戶應該對任何“關鍵任務”或生產用途進行自己的獨立測試。
沒有什麼能替代在自己的數據上嘗試模型並進行自己的評估;我們強烈鼓勵進行實驗!
訓練詳情
訓練數據
訓練數據集可在 此處 找到,你可以在那裡找到有關數據收集和標註過程的更多詳細信息。我們的圖像標籤大多根據 CC-BY 4.0 許可證發佈,還有較小部分的 CC BY-NC 和 CC BY-SA 影像。
訓練過程
我們在訓練期間使用 5 折交叉驗證過程來調整超參數,然後在“完整”訓練集上進行訓練,並在保留的圖像集上進行評估。此倉庫主分支中的模型應被視為發佈版本。
我們使用 Pytorch Lightning 作為訓練框架,超參數如下所列。訓練過程很簡單,對於有訓練深度神經網絡經驗的人來說應該很熟悉。
預處理
假設你使用 transformers
庫,此倉庫包含一個可與模型一起使用的預處理器配置。
你可以使用以下代碼輕鬆加載此預處理器:
from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained('restor/tcd-segformer-mit-b5')
請注意,我們不調整輸入圖像的大小(以便尊重源圖像的地理空間比例),並且我們假設歸一化是在這個處理步驟中進行的,而不是作為數據集變換。
訓練超參數
屬性 | 詳情 |
---|---|
圖像大小 | 1024 像素正方形 |
學習率 | 初始為 1e4 - 1e5 |
學習率調度 | 高原衰減 |
優化器 | AdamW |
數據增強 | 隨機裁剪到 1024x1024,任意旋轉,翻轉,顏色調整 |
訓練輪數 | 交叉驗證期間為 75 輪以確保收斂;最終模型為 50 輪 |
歸一化 | ImageNet 統計數據 |
速度、大小和時間
你應該能夠在 CPU 上評估該模型(即使是 mit-b5),但如果你嘗試推理大尺寸的圖像塊,你將需要大量可用的 RAM。一般來說,考慮到輸出分割掩碼的固定大小,我們發現 1024 像素的輸入是你能處理的最大尺寸(即,以 1024x1024 像素的批量模式進行推理可能比嘗試預測單個 2048x2048 像素的圖像更好)。
所有模型都在一臺配備 24 GB VRAM(NVIDIA RTX3090)的單個 GPU 上進行訓練,該 GPU 連接到一臺具有 64GB RAM 的 32 核機器。除了最大的模型外,所有模型都可以在一天內使用此規格的機器進行訓練。最小的模型訓練時間不到半天,而最大的模型訓練時間略超過一天。
我們從用戶(實地)收到的反饋是,土地所有者通常對查看航空調查結果感興趣,但在偏遠地區,數據帶寬往往是一個限制因素。我們的目標之一是支持這種實地使用,以便進行調查的用戶可以在合理的時間內(即大約一小時)離線處理結果。
評估
我們報告了在 OAM-TCD 保留分割上的評估結果。
測試數據
訓練數據集可在 此處 找到。
此模型(main
分支)在所有 train
圖像上進行訓練,並在 test
(保留)圖像上進行測試。
評估指標
我們報告了保留數據集上的 F1 分數、準確率和交併比(IoU),以及 5 折交叉驗證分割的結果。交叉驗證結果在以下圖表中以最小/最大誤差線表示。
評估結果
環境影響
此估計是此處介紹的 SegFormer 系列模型的最大(就訓練時間而言)估計。較小的模型,如 mit-b0
,訓練時間不到半天。
- 硬件類型:NVIDIA RTX3090
- 使用時長:< 36 小時
- 碳排放:每個模型 5.44 千克二氧化碳當量
碳排放使用 Lacoste 等人(2019) 提出的 機器學習影響計算器 進行估計。
此估計未考慮實驗所需的時間、失敗的訓練運行等。例如,由於我們使用了交叉驗證,每個模型實際上需要大約 6 倍的估計時間 - 每一折一次運行,再加上最終運行。
在野外工作中,在 CPU 上進行高效推理是可能的,但代價是推理延遲。一次典型的單電池無人機飛行數據可以在幾分鐘內處理完畢。
🔧 技術細節
引用和聯繫方式
BibTeX:
本文已被 NeurIPS 2024 的數據集和基準測試賽道接受。
最終版本確認並在會議記錄上線後,引用信息將更新。
@inproceedings{restortcd,
author = {Veitch-Michaelis, Josh and Cottam, Andrew and Schweizer, Daniella Schweizer and Broadbent, Eben N. and Dao, David and Zhang, Ce and Almeyda Zambrano, Angelica and Max, Simeon}
title = {OAM-TCD: A globally diverse dataset of high-resolution tree cover maps},
booktitle = {Advances in Neural Information Processing Systems},
pages = {1--12},
publisher = {Curran Associates, Inc.},
volume = {37},
year = {2024}
如有問題或需要進一步信息,請聯繫 josh [at] restor.eco。
📄 許可證
本模型訓練代碼根據 Apache-2 許可證提供。NVIDIA 已根據其自身的研究許可證發佈了 SegFormer。用戶在部署前應檢查此許可證的條款。此模型在 CC BY-NC 影像上進行訓練。











