tcd-segformer-mit-b2オープンソースセマンティックセグメンテーションモデル - 高解像度の航空写真における樹木被覆を高精度で描き出す

ホーム

Tcd Segformer Mit B2

restorによって開発

このセマンティックセグメンテーションモデルは、高解像度航空写真で樹木被覆を正確に描写できます。

画像セグメンテーション

Transformers

オープンソースライセンス:CC #航空写真樹冠分割 #高解像度セマンティックセグメンテーション #生態モニタリング専用

ダウンロード数 76

リリース時間 : 5/20/2024

モデル概要

このモデルはSegFormerアーキテクチャに基づき、航空写真から樹冠被覆率を評価し、ピクセル単位の樹木/非樹木分類を提供します。

モデル特徴

高解像度処理能力

10cm/ピクセルの高解像度航空写真でトレーニングされ、樹冠被覆を正確に識別できます。

グローバル多様性トレーニング

世界中の多様な航空写真でトレーニングされ、異なる生態群落シーンに適応します。

実用的な予測フレームワーク

エンドツーエンド予測パイプラインを提供し、大型オルソ画像のタイル処理と予測結合をサポートします。

モデル能力

航空写真分析

樹冠被覆検出

セマンティックセグメンテーション

地理空間分析

使用事例

生態研究

樹冠被覆評価

研究区域の樹冠被覆率を評価

正確な被覆率データを提供

土地管理

植生モニタリング

特定区域の植生変化をモニタリング

時系列変化を追跡可能

🚀 Restor社のSegFormerベースのTCDモデル

このモデルは、高解像度（10 cm/px）の航空画像における樹木被覆を描き出すことができるセマンティックセグメンテーションモデルです。

Hugging Faceにアップロードされたすべての類似モデルについて、このモデルカードはほぼ同じです。モデル名は特定のアーキテクチャバリアント（例：nvidia - mit - b0からnvidia - mit - b5）を指しますが、トレーニングと評価の大まかな詳細は同一です。

このリポジトリはtcd - segformer - mit - b2用です。

🚀 クイックスタート

このセマンティックセグメンテーションモデルを使って航空画像の樹木被覆を評価することができます。以下のColabノートブックで推論の簡単な例を見ることができます。このColabノートブック

エンドツーエンドの使用方法については、予測とトレーニングの[pipeline](https://github.com/restor - foundation/tcd)を参照してください。これは任意の大きさの画像に対するタイル化予測や出力報告などもサポートしています。

✨ 主な機能

高解像度（10 cm/px）の航空画像における樹木被覆を正確に描き出すことができます。
画像全体に対する予測を行い、特定の領域の樹木被覆を評価することができます。

📦 インストール

このモデルをトレーニングするための典型的なコマンドは以下の通りです。

tcd - train semantic segformer - mit - b2 data.output= ... data.root=/mnt/data/tcd/dataset/holdout data.tile_size=1024

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained('restor/tcd - segformer - mit - b2')

高度な使用法

このモデルを使って大きな画像をタイル化して予測するには、[pipeline](https://github.com/restor - foundation/tcd)を参照してください。

📚 ドキュメント

モデルの詳細

モデルの説明

このセマンティックセグメンテーションモデルは、グローバルな航空画像でトレーニングされ、同様の画像における樹木被覆を正確に描き出すことができます。このモデルは個々の木を検出するのではなく、画素ごとに樹木/非樹木の分類を行います。

開発者: Restor / ETH Zurich
資金提供: このプロジェクトは(Google.org impact grant)[https://blog.google/outreach - initiatives/sustainability/restor - helps - anyone - be - part - ecological - restoration/]によって可能になりました。
モデルの種類: セマンティックセグメンテーション（2クラス）
ライセンス: モデルのトレーニングコードはApache 2ライセンスの下で提供されています。NVIDIAはSegFormerを独自の研究ライセンスの下でリリースしています。ユーザーはデプロイする前にこのライセンスの条件を確認する必要があります。このモデルはCC BY - NCの画像でトレーニングされています。
ファインチューニング元のモデル: SegFormerファミリー

SegFormerは、Pyramid Vision Transformer v2モデルのバリアントで、多くの同一の構造的特徴とセマンティックセグメンテーションデコードヘッドを持っています。機能的には、このアーキテクチャはFeature Pyramid Network（FPN）に非常に似ており、出力予測はネットワークの異なる段階からの特徴を異なる空間解像度で組み合わせたものに基づいています。

モデルのソース

リポジトリ: https://github.com/restor - foundation/tcd
論文: 近日中にプレプリントを公開します。

用途

直接的な使用

このモデルは、単一の画像タイルに対する推論に適しています。大きな正射画像に対する予測を行うには、ソース画像のタイル化と予測結果のスティッチングを管理するための高レベルのフレームワークが必要です。私たちのリポジトリは、そのようなパイプラインの包括的な参照実装を提供しており、非常に大きな画像（国規模）でのテストも行われています。

このモデルは画像全体に対する予測を行います。ほとんどの場合、ユーザーは画像の特定の領域（例えば、調査区画や他の地理的境界）の被覆を予測したいと思うでしょう。画像内の樹木被覆を予測する場合は、結果に対して何らかの関心領域分析を行う必要があります。私たちのリンク先のパイプラインリポジトリは、シェイプファイルベースの領域分析をサポートしています。

想定外の使用

このモデルはグローバルに多様な画像でトレーニングされていますが、一部の生態学的バイオームはトレーニングデータセットでは過小評価されており、性能が異なる場合があります。したがって、ユーザーはこのモデルを何らかの重要な用途に使用する前に、独自の画像で実験することをお勧めします。

このモデルは10 cm/pxの解像度の画像でトレーニングされています。他の地理空間解像度でも良好な予測が得られる可能性がありますが、結果は信頼できない場合があります。特に、このモデルは本質的に「木のように見えるもの」を探しており、これは解像度に大きく依存します。もし、高解像度または低解像度の画像を日常的に予測したい場合は、このモデルを独自のデータセットまたはリサンプリングされたトレーニングデータセットでファインチューニングする必要があります。

このモデルはバイオマス、樹冠高さまたはその他の派生情報を予測しません。ある画素が樹冠に覆われている確率のみを予測します。

現状では、このモデルは炭素クレジットの推定には適していません。

バイアス、リスク、および制限

このモデルの主な制限は、木のように見える、または木と混同される可能性のあるオブジェクトに対する偽陽性です。例えば、大きな低木、灌木または樹冠のように見える地被植物です。

このモデルのトレーニングに使用されたデータセットは、専門家ではない人によってアノテーション付けされています。データセットのサイズ、独立したテストデータでの結果、およびRestorでのパートナーデータの運用中の経験的評価を考慮すると、これは合理的なトレードオフであると考えています。しかし、データセットにはほぼ確実に誤ったラベルが含まれており、これが誤った予測またはモデル出力の他のバイアスにつながる可能性があります。モデルはトレーニングデータと「意見が一致しない」傾向がありますが、これはおそらく正しい方向です（つまり、ラベルの集計統計は良好です）。私たちは、すべてのトレーニングデータを再評価して、誤ったラベルを削除する作業を行っています。

私たちは、予測性能の堅牢な推定を提供するために交差検証の結果を提供しています。また、独立した画像（つまり、モデルが一度も見たことのない画像）での結果も提供しているので、ユーザーは独自の評価を行うことができます。精度に関する保証は一切提供しておらず、ユーザーは「重要な」または本番環境での使用について独自の独立したテストを行う必要があります。

自分のデータでモデルを試して独自の評価を行うことは代用できません。私たちは、実験を強くお勧めします！

トレーニングの詳細

トレーニングデータ

トレーニングデータセットはこちらで見つけることができます。ここでは、収集とアノテーションの手順に関する詳細を見ることができます。私たちの画像ラベルは主にCC - BY 4.0ライセンスの下で公開されており、CC BY - NCおよびCC BY - SAの画像の小さなサブセットもあります。

トレーニング手順

トレーニング中にハイパーパラメータを調整するために5分割交差検証プロセスを使用し、「完全な」トレーニングセットでトレーニングした後、ホールドアウトセットの画像で評価しました。このリポジトリのメインブランチのモデルはリリースバージョンと見なされるべきです。

私たちはトレーニングフレームワークとしてPytorch Lightningを使用し、以下にリストされたハイパーパラメータを使用しました。トレーニング手順は簡単で、ディープニューラルネットワークのトレーニング経験がある人なら誰でも馴染みがあるはずです。

前処理

このリポジトリには、transformersライブラリを使用する場合にモデルとともに使用できる前処理器の設定が含まれています。

例えば、以下のようにしてこの前処理器を簡単にロードすることができます。

from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained('restor/tcd - segformer - mit - b2')

入力画像をリサイズしないことに注意してください（ソース画像の地理空間スケールを尊重するため）。また、正規化はこの処理ステップで行われ、データセットの変換としてではないことを前提としています。

トレーニングハイパーパラメータ

画像サイズ: 1024 px四方
学習率: 最初は1e4 - 1e5
学習率スケジュール: プラトーで減少
オプティマイザ: AdamW
データ拡張: 1024x1024へのランダムクロップ、任意の回転、反転、色調整
エポック数: 収束を確保するために交差検証中は75；最終モデルでは50
正規化: Imagenet統計

速度、サイズ、時間

CPUでもこのモデルを評価することができます（mit - b5まで）。ただし、大きなタイルサイズの推論を試みる場合は、大量の利用可能なRAMが必要です。一般的に、出力セグメンテーションマスクのサイズが固定されているため、1024 pxの入力が最大であると考えられます（つまり、2048x2048 pxの単一画像を推論するよりも、1024x1024 pxでバッチモードで推論を行った方が良い可能性があります）。

すべてのモデルは、24 GBのVRAMを持つNVIDIA RTX3090を搭載した32コアのマシンでトレーニングされました。この仕様のマシンでは、最大のモデルを除くすべてのモデルを1日以内にトレーニングすることができます。最小のモデルは半日以内で、最大のモデルは1日少し超える時間でトレーニングされます。

現場のユーザーからのフィードバックによると、土地所有者はしばしば航空調査の結果を見ることに興味がありますが、遠隔地ではデータ帯域幅がしばしば制限要因となります。私たちの目標の1つは、このような現場での使用をサポートすることであり、ユーザーが調査を行った後、合理的な時間（つまり、1時間程度）で結果をオフラインで処理できるようにすることです。

評価

私たちはOAM - TCDホールドアウト分割での評価結果を報告しています。

テストデータ

トレーニングデータセットはこちらで見つけることができます。

このモデル（mainブランチ）はすべてのtrain画像でトレーニングされ、test（ホールドアウト）画像でテストされました。

Training loss

評価指標

私たちはホールドアウトデータセットでのF1、Accuracy、IoU、および5分割交差検証分割での結果を報告しています。交差検証は、以下のプロットで最小/最大誤差バーとして視覚化されています。

結果

Validation loss IoU Accuracy (foreground) F1 Score

環境への影響

この推定値は、ここに提示されているSegFormerファミリーのモデルの最大値（トレーニング時間に関して）です。mit - b0のような小さいモデルは半日以内でトレーニングされます。

ハードウェアの種類: NVIDIA RTX3090
使用時間: < 36時間
排出された炭素量: モデルごとに5.44 kgのCO2相当

炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定されました。

この推定値は、実験に必要な時間、失敗したトレーニングランなどを考慮していません。例えば、交差検証を使用したため、各モデルは実際にはこの推定値の約6倍の時間が必要でした - 各分割に1回、最後に1回。

CPUでの効率的な推論は、推論の遅延を犠牲にして現場作業に可能です。典型的な単一バッテリーのドローン飛行は数分で処理できます。

引用

近日中に論文のプレプリント版を提供します。それまでの間、以下のように引用してください。

BibTeX:

@unpublished{restortcd,
  author = "Veitch - Michaelis, Josh and Cottam, Andrew and Schweizer, Daniella Schweizer and Broadbent, Eben N. and Dao, David and Zhang, Ce and Almeyda Zambrano, Angelica and Max, Simeon",
  title  = "OAM - TCD: A globally diverse dataset of high - resolution tree cover maps",
  note   = "In prep.",
  month  = "06",
  year   = "2024"
}