モデル概要
モデル特徴
モデル能力
使用事例
🚀 Restor社のSegFormerベースのTCDモデル
このモデルは、高解像度(10 cm/px)の航空画像における樹木被覆を描き出すことができるセマンティックセグメンテーションモデルです。
このモデルカードは、Hugging Faceにアップロードされたすべての類似モデルにほぼ同じ内容が適用されます。モデル名は特定のアーキテクチャバリアント(例: nvidia - mit - b0からnvidia - mit - b5)を指しますが、学習と評価の大まかな詳細は同じです。
このリポジトリは tcd - segformer - mit - b4
用です。
🚀 クイックスタート
このセマンティックセグメンテーションモデルは、グローバルな航空画像で学習されており、同様の画像における樹木被覆を正確に描き出すことができます。このモデルは個々の木を検出するのではなく、画素ごとに樹木/非樹木の分類を行います。
モデルの推論例
このColabノートブックで推論の簡単な例を見ることができます。
エンドツーエンドでの使用については、予測と学習の[pipeline](https://github.com/restor - foundation/tcd)を参照してください。このpipelineは、任意の大きさの画像に対するタイル化された予測や出力のレポートなどもサポートしています。
✨ 主な機能
- 高解像度(10 cm/px)の航空画像における樹木被覆のセマンティックセグメンテーションが可能。
- 画素ごとに樹木/非樹木の分類を行う。
📦 インストール
このモデルの学習には、以下のコマンドを使用できます。
tcd - train semantic segformer - mit - b4 data.output = ... data.root = /mnt/data/tcd/dataset/holdout data.tile_size = 1024
💻 使用例
基本的な使用法
from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained('restor/tcd - segformer - mit - b4')
高度な使用法
このモデルを使用して、航空画像から樹木被覆率を評価することができます。ただし、いくつかの注意点があります。
- このモデルは、グローバルな航空画像で学習されていますが、一部の生態学的バイオームは学習データセットでは過小評価されている可能性があり、性能が異なる場合があります。
- モデルは10 cm/pxの解像度の画像で学習されています。他の解像度でも予測は可能ですが、結果の信頼性は低くなる場合があります。
📚 ドキュメント
モデル詳細
モデルの説明
このセマンティックセグメンテーションモデルは、グローバルな航空画像で学習されており、同様の画像における樹木被覆を正確に描き出すことができます。モデルは個々の木を検出するのではなく、画素ごとに樹木/非樹木の分類を行います。
属性 | 详情 |
---|---|
開発者 | Restor / ETH Zurich |
資金提供 | このプロジェクトは(Google.org impact grant)[https://blog.google/outreach - initiatives/sustainability/restor - helps - anyone - be - part - ecological - restoration/]によって可能になりました。 |
モデルタイプ | セマンティックセグメンテーション(2クラス) |
ライセンス | モデルの学習コードはApache 2ライセンスの下で提供されています。NVIDIAはSegFormerを独自の研究用ライセンスで公開しています。ユーザーは展開する前にこのライセンスの条件を確認する必要があります。このモデルはCC BY - NC画像で学習されています。 |
ファインチューニング元のモデル | SegFormerファミリー |
SegFormerは、Pyramid Vision Transformer v2モデルのバリアントで、多くの構造的特徴が同じで、セマンティックセグメンテーションのデコードヘッドを持っています。機能的には、出力予測がネットワークの異なる段階の特徴を異なる空間解像度で組み合わせたものに基づいているため、アーキテクチャはFeature Pyramid Network (FPN)に非常に似ています。
モデルのソース
- リポジトリ: https://github.com/restor - foundation/tcd
- 論文: 近日中にプレプリントを公開します。
使用方法
直接使用
このモデルは、単一の画像タイルに対する推論に適しています。大規模な正射画像に対する予測を行うには、ソース画像のタイル化と予測結果のスティッチングを管理するための上位のフレームワークが必要です。私たちのリポジトリには、そのようなパイプラインの包括的な参照実装が提供されており、非常に大きな画像(国レベル)でテストされています。
モデルは画像全体に対する予測を行います。ほとんどの場合、ユーザーは画像の特定の領域、例えば調査区画や他の地理的境界に対する被覆率を予測したいと思うでしょう。画像内の樹木被覆率を予測する場合、結果に対して何らかの関心領域分析を行う必要があります。私たちのリンク先のパイプラインリポジトリは、シェイプファイルベースの領域分析をサポートしています。
想定外の使用
私たちはモデルをグローバルに多様な画像で学習させましたが、一部の生態学的バイオームは学習データセットでは過小評価されており、性能が異なる場合があります。したがって、モデルを何らかの重要な用途に使用する前に、ユーザー自身の画像で実験することをお勧めします。
モデルは10 cm/pxの解像度の画像で学習されています。他の地理空間解像度でも良好な予測が得られる可能性がありますが、結果は信頼できない場合があります。特に、このモデルは本質的に「木のようなもの」を探しており、これは解像度に大きく依存します。より高いまたは低い解像度の画像を日常的に予測する場合は、自分自身のデータセットまたは学習データセットのリサンプルバージョンでこのモデルをファインチューニングする必要があります。
モデルはバイオマス、樹冠高さまたはその他の派生情報を予測しません。ある画素が樹冠に覆われている確率のみを予測します。
現状のままでは、このモデルは炭素クレジットの推定には適していません。
バイアス、リスク、制限事項
このモデルの主な制限は、木に似ている、または木と混同される可能性のある物体に対する偽陽性です。例えば、大きな低木、灌木または樹冠のように見える地被植物などです。
このモデルの学習に使用されたデータセットは、専門家ではない人によってアノテーション付けされました。データセットのサイズ、独立したテストデータでの結果、およびRestorでのパートナーデータを使用した運用時の実証評価を考慮すると、これは合理的なトレードオフだと考えています。ただし、データセットにはほぼ確実に誤ったラベルが含まれており、これが誤った予測やモデル出力の他のバイアスにつながる可能性があります。私たちは、モデルが学習データと「不一致」になる傾向があり、これはおそらく正しい方向であることを観察しており(つまり、ラベルの集計統計が良好です)、誤ったラベルを取り除くためにすべての学習データを再評価する作業を行っています。
私たちは、予測性能の堅牢な推定を提供するために交差検証の結果を提示しており、独立した画像(つまり、モデルが一度も見たことのない画像)での結果も提供しているので、ユーザーは自分自身で評価することができます。精度に関する保証は一切提供しておらず、ユーザーは「重要な」または本番環境での使用については独自の独立したテストを行う必要があります。
自分自身のデータでモデルを試し、独自の評価を行うことは代用できません。私たちは実験を強くお勧めします!
学習詳細
学習データ
学習データセットはここで見つけることができ、収集とアノテーションの手順に関する詳細を見ることができます。私たちの画像ラベルは主にCC - BY 4.0ライセンスの下で公開されており、CC BY - NCおよびCC BY - SA画像の小さなサブセットもあります。
学習手順
学習中にハイパーパラメータを調整するために5分割交差検証プロセスを使用し、「完全な」学習セットで学習した後、ホールドアウトセットの画像で評価しました。このリポジトリのメインブランチのモデルはリリースバージョンと見なされるべきです。
学習フレームワークとしてPytorch Lightningを使用し、以下にリストされているハイパーパラメータを使用しました。学習手順は簡単で、ディープニューラルネットワークの学習経験がある人には馴染みのあるものです。
前処理
このリポジトリには、transformers
ライブラリを使用する場合にモデルと共に使用できる前処理器の設定が含まれています。
以下のようにして簡単にこの前処理器をロードすることができます。
from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained('restor/tcd - segformer - mit - b4')
入力画像をリサイズしないことに注意してください(ソース画像の地理空間スケールを尊重するため)。また、正規化はこの処理ステップで行われ、データセットの変換としてではないと想定しています。
学習ハイパーパラメータ
- 画像サイズ: 1024 px四方
- 学習率: 最初は1e4 - 1e5
- 学習率スケジュール: プラトーで減少
- オプティマイザ: AdamW
- データ拡張: 1024x1024へのランダムクロップ、任意の回転、反転、色調整
- エポック数: 収束を確保するために交差検証中は75;最終モデルは50
- 正規化: Imagenet統計
速度、サイズ、時間
CPUでモデルを評価することもできます(mit - b5までも可能)が、大きなタイルサイズで推論を試みる場合は大量の利用可能なRAMが必要になります。一般的に、出力セグメンテーションマスクのサイズが固定されているため、1024 pxの入力が最大限のサイズであると考えられます(つまり、2048x2048 pxの単一画像を予測しようとするよりも、1024x1024 pxでバッチモードで推論を行った方が良い可能性があります)。
すべてのモデルは、64GB RAMの32コアマシンに接続された24GB VRAMのNVIDIA RTX3090で学習されました。この仕様のマシンでは、最大のモデルを除くすべてのモデルを1日以内に学習することができます。最小のモデルは半日以内で学習でき、最大のモデルは1日ちょっとで学習できます。
現場のユーザーからのフィードバックによると、土地所有者はしばしば航空調査の結果を見ることに興味がありますが、遠隔地ではデータ帯域幅がしばしば制限要因になります。私たちの目標の1つは、このような現場での使用をサポートすることであり、調査を行ったユーザーが合理的な時間内(つまり、1時間程度)にオフラインで結果を処理できるようにすることです。
評価
テストデータ
学習データセットはここで見つけることができます。
このモデル(メインブランチ)はすべての train
画像で学習され、test
(ホールドアウト)画像でテストされました。
評価指標
ホールドアウトデータセットでのF1、Accuracy、IoUを報告しており、5分割交差検証の結果も報告しています。交差検証は、以下のプロットの最小/最大誤差バーとして視覚化されています。
結果
環境への影響
この推定値は、ここに提示されているSegFormerファミリーのモデルの最大値(学習時間の観点から)です。mit - b0
のような小さいモデルは半日以内で学習できます。
- ハードウェアタイプ: NVIDIA RTX3090
- 使用時間: < 36時間
- 排出された炭素量: モデルごとに5.44 kg CO2相当
炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定されました。
この推定値は、実験に必要な時間、学習の失敗などを考慮していません。例えば、交差検証を使用したため、実際には各モデルはこの推定値の約6倍の時間が必要でした - 各分割ごとに1回、そして最終的な実行です。
CPUでの効率的な推論は、推論の遅延を犠牲にして現場作業に可能です。典型的な単一バッテリーのドローン飛行のデータは数分で処理できます。
引用
近日中に論文のプレプリント版を提供します。それまでの間、以下のように引用してください。
BibTeX:
@unpublished{restortcd,
author = "Veitch - Michaelis, Josh and Cottam, Andrew and Schweizer, Daniella Schweizer and Broadbent, Eben N. and Dao, David and Zhang, Ce and Almeyda Zambrano, Angelica and Max, Simeon",
title = "OAM - TCD: A globally diverse dataset of high - resolution tree cover maps",
note = "In prep.",
month = "06",
year = "2024"
}
📄 ライセンス
モデルの学習コードはApache 2ライセンスの下で提供されています。NVIDIAはSegFormerを独自の研究用ライセンスで公開しています。ユーザーは展開する前にこのライセンスの条件を確認する必要があります。このモデルはCC BY - NC画像で学習されています。
モデルカードの作成者
Josh Veitch - Michaelis, 2024; データセットの作成者に代わって
モデルカードの問い合わせ
質問や詳細情報については、josh [at] restor.ecoにお問い合わせください。











