科羅拉多州立大學發佈 CSU-MLP 模型,用隨機森林演算法預測中期惡劣天氣

內容一覽:近期,來自美國科羅拉多州立大學與 SPC 的相關學者聯合發佈了一個基於隨機森林的機器學習模型 CSU-MLP,該模型能夠對中期 (4-8天) 範圍內惡劣天氣進行準確預報。目前該成果刊已發表在《Weather and Forecasting》期刊上。

關鍵詞:惡劣天氣 機器學習 隨機森林

作者 | 緩緩

編輯 | 三羊

天氣預報尤其是惡劣天氣預報對人們日常工作、生活等方面具有重要影響。Sigma 研究報告《經濟積累和氣候變化時期的自然災害》(Natural catastrophes in times of economic accumulation and climate change) 顯示,近年來惡劣天氣對全球造成的損失不斷加劇,僅 2019 年,相關災害事件造成的全球經濟損失就高達 1460 億美元,保險損失高達 600 億美元。並且,報告還稱,隨著惡劣天氣災害破壞性日益加重,未來相關損失會進一步加劇。因此,準確預測惡劣天氣顯得尤為迫切。

近期,美國科羅拉多州立大學的 Aaron J. Hill、Russ S. Schumacher 與國家海洋和大氣管理局 (NOAA) 風暴預測中心 (SPC) 的 Israel Jirak 聯合開發了一個基於隨機森林的機器學習模型 CSU-MLP,該模型能夠對中期(4-8天)範圍內惡劣天氣進行準確預報。目前該成果刊已發表在《Weather and Forecasting》期刊上。

目前該成果已發佈在《Weather and Forecasting》

論文地址:

https://arxiv.org/abs/2208.02383

CSU-MLP 概述

美國惡劣天氣預報一般是由上文提到的 SPC 使用數值天氣預報 (numerical weather prediction,簡稱 NWP) 模型進行預報,該模型能夠提前 1-2 天預警特定惡劣天氣及發生的地點,但在提前 3-8 天時只能預警發生的地點,無法預測是哪種惡劣天氣。

近十年來,一種高解析度的數值天氣預報模型 CAMs (convection-allowing models) 應運而生,小於 4 天(短期)時間範圍內的預報變得更加精準,但對於中長期時間範圍來說,預測效果卻沒有較大改觀。這種背景下,機器學習逐步在氣象學領域得到應用。

本項研究 CSU-MLP (Colorado State University Machine Learning Probabilities) 中,模型訓練的氣象資料來自全球幾何預報系統 (Global Ensemble Forecast System version 12,簡稱為 GEFSv12) 再預報資料集 (以下簡稱 GEFS/R),該資料集包含了美國本土 20 年的詳細歷史天氣資料。研究人員從中選取了 9 年(2003 年-2012 年)的資料作為本次中期預報研究訓練集,選取了 2 年 (2020 年-2022 年) 作為測試集。

隨機森林演算法

本研究基於一個叫隨機森林 (Random Forest,簡稱 RF) 的機器學習演算法。所謂隨機森林是一種基於集成學習(Ensemble Learning)的分類和迴歸演算法。具體到本研究中,就是通過惡劣天氣特徵輸入,遍歷整個決策樹從而得出惡劣天氣的預測結果。

因此,在隨機森林演算法中,惡劣天氣的特徵輸入的尤為重要,在本研究試驗中,研究人員從上述提到的訓練集中提取了 12 個與惡劣天氣有關聯的特徵變數用作訓練,具體特徵變數如下表所示。

用於模型訓練和預測的 12 個特徵變數

用於模型訓練和預測的 12 個特徵變數

不過,在 GEFS/R 資料集中,這些特徵變數解析度並不一致,為此研究人員進行了插值處理,將其統一到了 0.5 度網格間距 (dergee grid spacing)。

特徵工程

本研究中除了採用隨機森林進行中期惡劣天氣預測分析能力,還簡要探究了特徵工程。所謂特徵工程指一種處理資料的技術,用於從觀測事件周圍收集特徵,並將其轉換為機器學習演算法可以使用的形式。具體到本試驗中,研究人員主要提出了兩種方法進行簡化特徵,包括空間平均 (spatially averaging the features) 和時滯方法 (time-lagging) 等。

空間平均是指在研究人員提出將每個預測空間點上所有特徵變數的值取平均數,這樣可以減少噪聲資料的干擾從而提高模型性能。具體過程如下圖所示。

特徵變數組合處理方式

特徵變數組合處理方式

時滯方法是指在預測或建模過程中,將過去一段時間的觀測資料延遲應用於當前時間點的預測或建模中。

它基於假設,過去的觀測資料可以提供有關當前狀態和未來趨勢的有用資訊。本次試驗中,研究人員使用了時滯方法來擴充 GEFS/R 資料集的規模,但這個過程並不會對模型產生額外的計算量。

試驗結果

研究人員使用 GEFSv12 的 1.5 年實時天氣預報測試 CSU-MLP 預測結果,並與 SPC 生成的人工預報進行對比。相關試驗結果顯示,在中期預報範圍內,基於隨機森林的預報系統的準確性及預報地域範圍都要優於 SPC,如下圖所示。但是,隨著時間範圍的增大,二者的預報能力都會有所下降。

2022年3月27日,CSU-MLP與SPC中期預報對比

a 圖是 CSU-MLP 的 4 天預報,b 圖為 SPC 的 4 天預報。其中,被陰影覆蓋的部分指的是惡劣天氣的預測概率,圓形圖示指的是 SPC 的龍捲風(紅色)、冰雹(綠色)和風暴(藍色)的局部預報,圖片的左下角和右下角分別為評估天氣預報準確性的預測技能得分 BSS 和評估局部天氣預報代表性的觀測覆蓋率。

對此,研究人員總結,整個預測系統的技巧性和精確性都有了很大的提升,主要是因為基於隨機森林的預測系統在連續概率以及低概率輪廓(表示惡劣天氣的估計中,概率較低的區域所形成的輪廓)兩方面預測能力很強

此外,研究人員還通過試驗不同地區、不同因素(熱力學和動力學)對於預報的影響,探究了特徵變數對惡劣天氣預報很重要。結果如下圖所示。

不同特徵變數對天氣預報很重要

不同特徵變數對天氣預報很重要

雖然上述不同因素、不同地區對預報的具體影響還有待於深入研究,但從中研究人員作出了初步判斷:這些不同的特徵變數會被模型進一步學習並用來進行惡劣天氣預報。這也說明,基於隨機森林的預測系統經過進一步的訓練完善,是具有一定可信性和實用性的。

當然,在本試驗過程中,研究人員也提出了基於隨機森林的預測系統仍有很多需要完善的部分。比如,CSU-MLP 還需要再加入 SPC 人工預報的預測資料,進一步提升機器學習預報結果的可信性。

AI 智慧氣象新階段或將到來

人類一直致力於理解並預測世界,其中較為成功的例子之一便是天氣預報。古時候,人們大多依據生活經驗來進行預報,如「朝霞不出門,晚霞行千里」等,到現代,科學家們開始使用傳感器和氣象衛星收集海量資料來進行更精準的預報。

值得關注的是,在氣象學發展的現階段,AI 的加入大大增強了天氣預報的準確性。據外媒報道,近幾年瑞士的氣象研究人員通過引入 AI,成功預測到閃電的時間和地點,該模型目前預測準確性達到 80%。

同時早在 2015 年,IBM 公司就斥資 20 億美元收購天氣頻道 (WeatherChannel) 母公司 Weather Co. 數碼和資料資產,而該公司之所以花費如此大手筆,也正是計劃將 Weather Co. 的天氣資料和預測資訊同旗下 AI 服務 Watson 相結合。可見,IBM 等巨頭已經十分看好 AI 在氣象學上的潛力,並已開始著手佈局。

不難預測,雖然影響天氣變化的客觀因素成千上萬,天氣精準預報的難度依然較大,但隨著 AI 和氣象學融合的進一步加深,一個由 AI 定義的智慧氣象新時代或將加速來到。

P.S.:

本篇論文 code 及資料集後續會發布在 HyperAI超神經官網 Hyper.ai,感興趣的夥伴們可以持續關注~

相關文章

AI 加碼,超光學進入狂飆時代

AI 加碼,超光學進入狂飆時代

內容一覽:近年來,為了突破傳統光學研究的侷限性,光學與物理學交叉領域的一個新興技術超光學出現,並且展現出巨大的市場前景。在這門技術高速發展的...