🚀 歐洲再分析超分辨率項目
本項目旨在創建一個機器學習(ML)模型,通過對ERA5的全球再分析數據進行降尺度處理,生成高分辨率的區域再分析數據(類似於CERRA所生成的數據)。
這將通過使用最先進的深度學習(DL)技術來實現,如U-Net、條件生成對抗網絡(GAN)和擴散模型等。此外,還將實現一個數據攝入模塊,以評估使用CERRA偽觀測數據作為額外預測因子的潛在益處。模型設計和訓練完成後,將進行詳細的驗證框架搭建。
該框架將經典的確定性誤差指標與深入的驗證相結合,包括時間序列、地圖、時空相關性和計算機視覺指標,並按月份、季節和地理區域進行細分,以評估模型在減少誤差和表徵物理過程方面的有效性。這種細緻的評估方式有助於更全面、準確地評估模型,這對於確保模型在實際應用中的有效性至關重要。
此外,還可以使用深度學習模型的可解釋性工具,通過分析不同神經元的激活情況和輸入數據中不同特徵的重要性,來理解這些複雜結構的內部工作原理和決策過程。
本項目由 Code for Earth 2023 倡議資助。
去噪模型以Apache 2.0許可發佈,可在任何地方無限制使用。
🚀 快速開始
本項目旨在創建一個機器學習模型,通過對ERA5的全球再分析數據進行降尺度處理,生成高分辨率的區域再分析數據。具體步驟如下:
- 運用U-Net、條件GAN和擴散模型等深度學習技術設計模型。
- 實現數據攝入模塊,評估使用CERRA偽觀測數據作為額外預測因子的益處。
- 對模型進行訓練,並使用詳細的驗證框架進行評估。
✨ 主要特性
- 先進技術應用:使用U-Net、條件GAN和擴散模型等最先進的深度學習技術。
- 細緻驗證框架:將經典確定性誤差指標與深入驗證相結合,按月份、季節和地理區域進行細分評估。
- 可解釋性工具:使用深度學習模型的可解釋性工具,理解模型內部工作原理和決策過程。
📦 安裝指南
文檔未提及具體安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型詳情
模型描述
本模型是一個去噪神經網絡,在雙三次插值輸入上進行實例歸一化訓練。我們為去噪擴散概率模型實現了 diffusers.UNet2DModel,並使用了不同的調度器:DDPMScheduler、DDIM 和 LMSDiscreteScheduler。

本項目展示了使用擴散模型(DM)對地中海地區的區域再分析網格進行降尺度處理(從0.25º到0.05º)的結果。
- 開發者:Predictia Intelligent Data Solutions S.L. 團隊
- 模型類型:視覺模型
- 語言:英語、西班牙語
- 許可證:Apache - 2.0
- 更多信息資源:更多信息請參考 GitHub 倉庫
去噪網絡
對於去噪網絡,我們僅探索了一種架構 diffusers.UNet2DModel,並使用了不同的模型大小,輸出通道從3個塊的64、128和192到默認配置的4個塊的224、448、672和896不等。
該網絡的輸入如下:
- 2個通道,分別對應時間步 \(t\) 的噪聲圖像和雙三次上採樣的ERA5場。
- 時間步 \(t\),將其投影到嵌入層並添加到輸入中。
噪聲調度器
考慮了以下不同的調度器:
訓練數據
使用的數據集是ERA5和CERRA再分析數據的組合。
輸入網格(ERA5)的空間覆蓋範圍如下,對應一個維度為 (60, 42) 的二維數組:
longitude: [-8.35, 6.6]
latitude: [46.45, 35.50]
目標高分辨率網格(CERRA)對應一個維度為 (240, 160) 的二維矩陣:
longitude: [-6.85, 5.1]
latitude: [44.95, 37]
用於訓練的數據樣本對應1981年至2013年(含)的時間段,2014年至2017年的數據用於每輪驗證。
歸一化技術
在 ECMWF Code 4 Earth 期間及之後,對以下歸一化技術進行了探索:
使用月度氣候學數據:計算訓練期間每個區域(像素或區域)的歷史氣候學數據,並據此進行歸一化。在我們的案例中,考慮了月度氣候學數據,但也可以按一天中的時間進行細分。
- 逐像素:計算氣象場每個像素的氣候學數據,然後每個像素使用其自身的氣候學統計數據進行標準化。
- 按區域:計算整個感興趣區域的氣候學統計數據。計算統計數據後,有兩種歸一化方案:
- 獨立:分別對ERA5和CERRA進行歸一化,各自使用自身的統計數據。
- 依賴:僅使用ERA5的氣候學統計數據同時對ERA5和CERRA進行標準化。
對於逐像素方案,依賴方法不可行,因為輸入和輸出補丁像素之間沒有直接對應關係。如果需要這樣做,可以計算雙三次降採樣後的ERA5的統計數據,並使用這些統計數據對CERRA進行歸一化。
不使用歷史信息:通過ERA5場的均值和標準差獨立地對每個樣本進行歸一化,這在機器學習社區中稱為實例歸一化。在我們的用例中,由於推理期間無法獲得輸出數據,因此只能使用輸入數據的分佈統計數據,但有兩種不同的變體:
- 使用輸入ERA5的統計數據。請注意,它覆蓋的區域比CERRA更廣。
- 使用雙三次降採樣後的ERA5的統計數據,其代表的區域與CERRA相同。
這兩種方法的區別不在於在降採樣或原始ERA5上計算統計數據,而在於輸入補丁覆蓋的區域更大,因此分佈更不同。因此,第二種方法似乎更正確,因為降採樣區域的分佈將更接近輸出分佈。
結果
歸一化
- 逐像素歸一化在這個問題設置中沒有意義,因為它會消除空間模式,導致DDPM無法學習到任何信息。
- 相反,當使用區域統計數據進行縮放時,DDPM可以重現輸入ERA5中不存在的高分辨率細節,但無法匹配當前的高分辨率場。DDPM樣本具有類似CERRA場的外觀,但在一段時間內計算均方誤差(MSE)時,比雙三次插值大3倍。
- 當使用區域統計數據進行縮放時,對輸入和輸出使用相同的統計數據可以稍微更好地表示預測的均值,但所有方法都無法重現樣本中看到的場的方差。
- 直接在去噪網絡輸入(降採樣後的ERA5)上進行實例歸一化可以比其他方法稍微更好地重現空間模式,誤差指標在空間上更均勻。例如,山區的空間模式可以很好地重現。
調度器
訓練時間和採樣質量(在最大能力下)沒有顯著差異。調度器之間的差異可能在推理期間出現,DDIM或LMSDiscrete可能在較少的推理步驟下獲得更高質量的樣本,從而降低計算成本。
由於在最大能力下(推理步驟 = 訓練時間步數)未達到令人滿意的性能,因此尚未對採樣期間調度器的效率進行研究,根據科學文獻,40個樣本(當前推理步驟的1/25)可能就足夠了。
模型大小
這與訓練時間密切相關,不僅因為網絡的前向和反向傳播過程需要時間,還因為加載樣本的可用內存有限,因此需要更多(更小)的批次來完成每個輪次。
在可用的計算資源有限和考慮的數據集的情況下,進行的測試表明,從數十個輸出通道增加到幾百個輸出通道時,模型性能有所提高,得到的網絡參數在2000萬到1億之間,但由於訓練期間出現的問題(如梯度爆炸等),無法達到默認大小。
下一步計劃
由於已經對模型大小、歸一化和噪聲調度器等因素進行了廣泛探索,因此有必要將研究工作轉移到其他方面,如下所示:
- 訓練一個變分自編碼器(VAE),以使用潛在擴散模型(Latent DM)。這可以被視為一種可學習的歸一化方法,還具有減少樣本大小和計算成本的額外優勢。
- 訓練一個更大的去噪網絡。為此,可能需要更大的虛擬機(VM)和/或使用更多的樣本進行訓練。例如,在開始的幾個輪次中使用隨機補丁進行學習,然後在最後幾個輪次中使用當前區域進行微調可能會有幫助。
- 嘗試其他類型的擴散模型,如基於分數的擴散模型(Score Based DM)。
- 嘗試 diffusers 中可用的新架構。
根據計算機視覺中超分辨率等其他問題的科學文獻,在處理更大的樣本(3個通道而不是1個通道,更多像素)時,使用這種架構類型和擴散模型類型應該可以獲得更好的結果。
為了解決最具限制性的因素,我們認為最佳選擇是探索上述第1和第2點。
計算基礎設施
硬件
在深度學習項目中使用GPU可以顯著加速模型訓練和推理,從而大幅減少計算時間,使高效處理複雜任務和大型數據集成為可能。
我們的項目部署了兩臺虛擬機(VM),每臺都配備了專用的圖形處理單元(GPU)。一臺VM配備了16GB的GPU,另一臺配備了更大的20GB GPU。這種資源配置使我們能夠有效地管理從數據處理到模型訓練的各種計算任務,最終推動項目的成功執行。
軟件
用於訓練和評估此模型的代碼可通過其GitHub倉庫 ECMWFCode4Earth/DeepR 免費獲取,該倉庫由ECWMF Code 4 Earth組織託管。
作者
- Mario Santa Cruz,Predictia Intelligent Data Solutions S.L.
- Antonio Pérez,Predictia Intelligent Data Solutions S.L.
- Javier Díez,Predictia Intelligent Data Solutions S.L.
🔧 技術細節
本項目運用了U-Net、條件GAN和擴散模型等深度學習技術,通過對ERA5的全球再分析數據進行降尺度處理,生成高分辨率的區域再分析數據。同時,使用詳細的驗證框架對模型進行評估,包括經典確定性誤差指標和深入驗證,按月份、季節和地理區域進行細分。此外,還使用了深度學習模型的可解釋性工具,理解模型內部工作原理和決策過程。
📄 許可證
本去噪模型以Apache 2.0許可發佈,可在任何地方無限制使用。