Gary Marcus又來「整頓」AI圈:LeCun不可信,Nature審稿人沒用腦子

Gary Marcus 和 Yann LeCun 等人的一系列辯論能否讓「AI 的未來何去何從」這一命題越辯越明?

這個週末剛過,我們再次看到了 Gary Marcus 對 AI 圈的最新「整頓」成果。

「四天內關於人工智慧和機器學習的三個令人費解的說法、頂級期刊的統計錯誤,以及 Yann LeCun 的一些說法,你都不應該相信。」

以下是 Gary Marcus 的原文內容:

一些事情即將發生。當《紐約時報》說一場革命即將到來,但事實上並沒有發生時,我從不感到驚訝。這種情況已經持續了很長一段時間(實際上是幾十年)。

比如,想想 2011 年時 John Markoff 是如何展望 IBM Watson 的。

「對 I.B.M. 來說,這場較量不僅是一場廣為人知的宣傳和 100 萬美元的獎勵,還證明了該公司已經朝著一個智慧機器能夠理解並對人類做出反應,甚至可能不可避免地取代人類的世界邁出了一大步。」

但 11 年之後的今天,John Markoff 所描述的願景並沒有發生。人們仍然缺乏對人工智慧的理解,真正被 AI 取代的工作也是極少數。我所知道的每一輛卡車仍然在由人類駕駛(除了一些在受限場景下進行測試的卡車),目前還沒有放射科醫生被取代。Watson 本身近期也在被拆分出售。

《紐約時報》在 1958 年首次表示,神經網路即將解決人工智慧問題。當然,預測 AI 並不是《紐約時報》的強項。

但在過去的幾天裡,我看到一大堆嚴肅的研究人員也在提出類似的過度興奮的主張,他們本應該更了解這個領域的情況。

第一個例子來自史丹佛大學經濟學家 Erik Brynjolfsson,是三個例子中最不令人反感的一個,但仍有些過頭。

我看過很多種不同類型的狹義智慧,一些智慧在它們特定的領域能超越人類。人類智慧(可能)比目前所有其他智慧都更加廣泛,但仍然只是智慧空間中一個非常狹窄的部分。

Brynjolfsson 認為,人類智慧是所有可能的智慧空間中非常狹窄的一部分(這是喬姆斯基在我出生前就針對人類語言提出的觀點),這個看法完全正確。毫無疑問,比我們更聰明的智慧是有可能存在的,而且還可能實現。

但是,且慢——他帖子裡的 「probably」是怎麼回事呢?他甚至把它放到了括號裡。

任何一個正常的 5 歲孩子都可以用他們幾年前或多或少從零學到的母語進行對話、爬上一個不熟悉的攀爬架、看懂一部新卡通的情節或口頭掌握一個新卡片遊戲的規則,而不需要進行成千上萬次的嘗試。人類孩童在不斷地學習新事物,而且通常是從少量的資料中學習。在人工智慧的世界裡,沒有任何東西可以與之相比。

他在帖子里加一個「probably」,就好像我們認為,在人工智慧的世界裡,人類通用智慧存在一個有潛力的競爭對手。事實上並沒有。這就好像我說「塞雷娜 · 威廉姆斯可能(could probably)會打敗我」一樣。

與此同時,Yann LeCun 發佈了一系列令人費解的推文,聲稱他發明的 ConvNet(或其他什麼東西)可以解決幾乎所有問題,這不是真的,而且從表面上看與他自己幾周前告訴 ZDNet 的相矛盾。但是等等,還有更糟的。LeCun 繼續寫了下面的話,這真的讓我摸不著頭腦:

無論你是想增強人力還是取代人力,在 AI 領域取得進展所要解決的問題都是「完全」相同的。

我不同意他的看法。增強人的能力要簡單得多,因為你不需要把整個問題都解決掉。計算器可以增強會計的能力,但它不知道哪些錢是可扣除的,也不知道稅法中哪裡可能存在漏洞。我們知道如何建造能做數學運算的機器(增強),但不知道如何製造能夠閱讀稅法程式碼的機器(取代)。

我們再來看看放射學:

我們再來看看放射學

放射科醫師的工作不僅包括閱讀圖像(卷積網路適用),而且(在某些情況下)包括推理患者的病史以及閱讀非結構化文字,這兩個問題卷積網路就不太適用了。

醫療 AI 領域以壓倒性多數和一致的方式支持我的論點:

說得對!我們會閱讀臨床記錄、查看 lab value、與轉診醫生交流,然後在這些附加資訊的背景下查看成像結果。

經過一番思考,我們認為 LeCun 的說法不正確。我們在醫學上建立輔助系統的原因是我們還無法解決診斷任務。我們只擅長非常簡單的高通量任務,而這些任務對放射科醫生來說真的很容易。

我的收件箱裡全都是爭論「AI 是否可以取代放射科醫生?還是只能看掃描結果」的內容,然而 AI 甚至還不能很好地看懂影像……

我已經在醫學成像中用了五年的深度學習。我自己的公開預測是:有朝一日,人工智慧將完全取代放射科醫生。但是在此之前,我們將先實現移民火星的夢想。

人工智慧可以解決放射學某些方面的問題,但這並不意味著它可以解決所有方面的任何問題。

正如 Una Health 聯合創始人兼首席醫療官 Matthew Fenech 所說:「主張在一段不長的時間裡取代放射科醫生是從根本上誤解了他們的角色。」

但這些只是即興的推文。也許我們可以原諒他們倉促的表達。但更令我驚訝的是,《自然》雜誌的一篇關於語言神經科學的文章中出現了大量有利於深度學習的統計錯誤。

這篇文章(《Deep language algorithms predict semantic comprehension from brain activity(深度語言演算法通過大腦活動預測語義理解)》)由一些 MetaAI 的研究人員撰寫:

表面上看,這個結果對於深度學習愛好者來說是個好訊息,揭示了深度學習和人腦之間的相關性。該研究的主要作者在Twitter上的同一系列帖子中聲稱,GPT-2 的「內部工作」與人類大腦之間存在「直接聯繫」:

但細節很重要;我們看到的只是一種相關性,觀察到的相關性是良好的,但不是決定性的,R = 0.50。

這足夠發表文章了,但也意味著還有很多未知的地方。當兩個變數像這般相關時,並不意味著 A 導致 B(反之亦然)。這甚至不意味著他們步調一致。它類似於身高和體重之間的相關性的大小:如果我只知道你的身高,而對你一無所知,我可以對你的體重做出一個稍微有根據的猜測——可能很接近,但也可能相去甚遠,這些都是無法保證的。

這篇論文字身解決了這個問題,但是當它這樣做時,它犯了一個大錯,再次將太多結果歸因於深度學習。他們是這樣說的:(了解自己統計資料的人可能會立即發現錯誤)。

正如 Stats 101 告訴我們的,所解釋的變化量不是 R,而是 R 的平方。因此,如果你有 R = 0.5 的相關性,實際上「解釋」的(實際上只是「預測」)只有 25 % 的方差——這意味著四分之三(而不是一半)的可變性仍未得到解釋。這是一個巨大的差異。(在一則私信中,我向作者 King 指出了錯誤,他和我意見一致,並承諾他會聯繫期刊進行更正。)

預測僅 25% 的方差意味著允許進行「推測」,但這肯定不意味著你已經確定了答案。最後,我們真正擁有的證據只是表明,對 GPT 很重要的東西對大腦也很重要(例如頻率和複雜性)。但我們還不能說,兩個弱相關的東西實際上在以相同的方式運作。

現在事情就是這樣。但《自然》雜誌的同行評審並沒有注意到這個點,這讓我感到震驚。它告訴我的是人們喜歡這個故事,卻並沒有仔細閱讀。(仔細閱讀是同行評審員的首要工作。)

當審稿人喜歡這個故事但沒有批判性地閱讀時,這表明他們是用心投票,而不是用大腦投票。

原文連結:https://garymarcus.substack.com/p/too-much-benefit-of-the-doubt?utm_source=twitter&sd=pf

相關文章

18年後,無人倖免?

18年後,無人倖免?

1 AI,真的覺醒了? 人工智慧,會甦醒嗎? 這是一個古老而又新奇的話題。 「深度學習」天生的不可預測,加深了這種憂慮。 「神經網路」的生物...