詹士 Alex 發自 凹非寺
「AI的一些醫療決策,實際上就是拋硬幣。」
哈佛醫學院的資料科學家Kun-Hsing Yu語出驚人。
他還補充道:
即便比賽中正確率達90%的獲獎模型,再用原資料集子集測試時,準確度最多60-70%,可謂慘敗。這讓我們很驚訝。

上述科學家的觀點來自Nature最近新發表的一篇文章。
內容對AI在醫療領域的可重複性提出了質疑,呈現諸多醫療領域及場景中,AI自帶的黑箱屬性造成的隱患。

更值得關注的是,儘管問題存在,但AI仍在醫療領域大規模推廣使用。
舉例來看,數以百計的美國醫院已在使用一種AI模型標記敗血症早期症狀,但在2021年,該模型被發現未能識別率高達67%。
所以,AI究竟帶來了哪些醫療隱患,如何解決?
繼續往下看。

△圖源:Nature
人工智慧的「看病難」
我們先從哈佛醫學院的資料科學家Kun-Hsing Yu發現AI「拋硬幣」的始末聊起。
在醫療領域,AI用於診斷檢測人體一直質疑聲不斷,Kun-Hsing Yu此番研究也是希望有個直觀體感。
他選定了常見癌症之一的肺癌,每年有350萬美國人因該病症去世,若能更早通過CT掃描篩查,很多人可以免於死亡。
該領域的確備受機器學習界關注,為此,2017年業內還舉辦了面向肺癌篩查的競賽。

該活動歸屬於Kaggle的Data Science Bowl賽事,資料由主辦方提供,涵蓋1397位患者的胸部CT掃描資料。參賽團隊需開發並測試演算法,最終大賽按準確率給予評獎,在官宣中,至少五個獲獎模型準確度90%以上。
但Kun-Hsing Yu又重新測試了一輪,然後震驚地發現,即便使用原比賽資料的子集,這些「獲獎」模型最高準確率卻下降到了60-70%。

△一位參賽者分享的模型結構
上述狀況並非個例。
普林斯頓一位博士,Sayash Kapoor,在17個領域的329項研究中報告了可重複性失敗和陷阱,醫學名列其中。
基於研究,這位博士及自己的教授還組織了一個研討會,吸引了30個國家600名科研者參與。
一位劍橋的高級研究員在現場表示,他用機器學習技術預測新冠傳播流行趨勢,但因不同來源的資料偏差、訓練方法等問題,沒有一次模型預測準確。還有一位研究者也分享了——自己用機器學習研究心理課題,但無法復現的問題。
在該研討會上,還有參與者指出Google此前遇到的「坑」。
他們曾在2008年就利用機器學習分析使用者搜尋所產生資料集,進而預測流感暴發。Google為此還鼓吹一波。
但事實上,它並未能預測2013年的流感暴發。一家獨立研究機構指出,該模型將一些流感流行無關的季節性詞彙進行了關聯和鎖定。2015年,Google停止了對外公開該趨勢預測。
Kapoor認為,就可重複性來說,AI模型背後的程式碼和資料集都應可用並不出錯誤。那位研究新冠流行模型的劍橋ML研究者補充道,資料隱私問題、倫理問題、監管障礙也是導致可重複性出問題的病灶。

他們繼續補充道,資料集是問題根源之一。目前公開可用的資料集比較稀缺,這導致模型很容易產生帶偏見的判斷。比如特定資料集中,醫生給一個種族開的藥比另一個種族多,這可能導致AI將病症與種族關聯,而非病症本身。
另一個問題是訓練AI中的「透題」現象。因資料集不足,用於訓練模型的資料集和測試集會重疊,甚至該情況一些當事人還不知道,這也可能導致大家對模型的正確率過於樂觀。

△Sayash Kapoor博士
儘管問題存在,但AI模型仍已被應用在實際診斷場景中,甚至直接下場看病。
2021年,一個名為Epic Sepsis Model的醫療診斷模型被曝出嚴重漏檢問題。
該模型用於敗血症篩查,通過識別病人早期患病特徵檢測,避免這種全身感染的發生,但密歇根大學醫學院研究者通過調查分析了27697人的就診情況,結果發現,該模型未能識別67%敗血症病患。
此後,該公司對模型進行了大調整。
一位計算生物學家對此指出,該問題之所以較難解決,也同AI模型透明度不足有關。「我們在實踐中部署了無法理解的演算法,也並不知道它帶什麼偏見」,他補充道。

△曝出Epic Sepsis Model問題的文章
可以明確的是,只要上述問題一直未能解決,商業巨頭及相關創業項目也有些舉步維艱——
去年GoogleGoogle健康(Google Health)宣佈人員拆分到各團隊,前幾天,Google孵化的生命健康子公司Verily又被曝裁員約15%。
有沒改進措施?
對於這樣的現狀,一些研究者和業內人士也在著手改進醫療AI。
一方面,是構建靠譜的超大資料集。
涵蓋機構、國家和人口等多方面的資料,並向所有人開放。
這種資料庫其實已經出現了,比如英國和日本的國家生物庫,以及重症病房遠端監護系統eICU合作的資料庫等。
就拿eICU合作研究資料庫來說,這裡面大約有20萬次的ICU入院相關資料,由飛利浦醫療集團和MIT的計算生理學實驗室共同提供。
為了規範資料庫的內容,需要建立收集資料的標準。例如一個關於醫療結果夥伴關係的可觀測資料模型,讓各醫療機構能以相同的方式收集資訊,這樣有利於加強醫療保健領域的機器學習研究。
當然,與此同時,也必須重視嚴格保護患者的隱私,而且只有當患者本人同意時,才有資格把他們的資料納入庫。
另一方面,想要提升機器學習質量的話,消除冗餘資料也很有幫助。
因為在機器學習中,冗餘資料不僅會延長運行時間、消耗更多資源;而且還很可能造成模型過擬合——也就是訓練出來的模型在訓練集上表現很好,但是在測試集上表現較差。
對於AI圈很熱門的預測蛋白質結構,這個問題已經得到了有效緩解。在機器學習過程中,科學家們成功地從測試集中刪除了和訓練集用到的過於相似的蛋白質。

but,各病人醫療資料之間的差異,並沒有不同蛋白質結構差異那麼明顯。在一個資料庫中,可能有許許多多病情非常相似的個體。
所以我們需要想清楚到底向演算法展示什麼資料,才能平衡好資料的代表性和豐富性之間的關係。
哥本哈根大學的轉化性疾病系統生物學家Søren Brunak如是評價。
除此之外,還可以請行業大佬們制定一個檢查表,規範醫療AI領域的研究開發步驟。
然後,研究人員就能更方便地搞清楚先做什麼、再做什麼,有條不紊地操作;還能Check一些可能遺漏的問題,比如一項研究是回顧性還是前瞻性的,資料與模型的預期用途是否匹配等等。
其實,現有已有多種機器學習檢查表,其中大部分是基於「EQUATOR Network」先提出的,這是一項旨在提高健康研究可靠性的國際倡議。

此前,上文提到的普林斯頓的Kapoor博士,也和團隊共同發表了一份包含21個問題的清單。
他們建議,對於一個預測結果的模型,研究人員得確認訓練集中的資料要早於測試集,這樣可以確保兩個資料集是獨立的,不會有資料重疊和相互影響。
參考連結:
[1]https://www.nature.com/articles/d41586-023-00023-2
[2]https://www.wired.com/story/machine-learning-reproducibility-crisis/
[3]https://mp.weixin.qq.com/s/TEoe3d9DYuO7DGQeEQFghA