深度學習撞牆了

早在 2016 年,Hinton 就說過,我們不用再培養放射科醫生了。如今幾年過去,AI 並沒有取代任何一位放射科醫生。問題出在哪兒?

>>>>

近年來,AI 在大資料、大模型的深度學習之路上一路狂奔,但很多核心問題依然沒有解決,比如如何讓模型具備真正的理解能力。在很多問題上,繼續擴大資料和模型規模所帶來的收益似乎已經沒有那麼明顯了。

在 Robust.AI 創始人、紐約大學名譽教授 Gary Marcus 看來,這預示著深度學習(準確地說是純粹的端到端深度學習)可能就要「撞到南牆」了。整個 AI 領域需要尋找新的出路。

Gary Marcus 的推文。Gary Marcus 是人工智慧、心理學、神經科學等多個領域的專家。他經常為《紐約客》和《紐約時報》撰稿,並且是四本書的作者。在擔任紐約大學心理學和神經科學教授期間,他在人類和動物行為、神經科學、遺傳學和人工智慧等領域發表了大量文章,並經常刊登在 Science 和 Nature 等期刊上。

那麼,新的出路在哪兒呢?Gary Marcus 認為,長期以來被忽略的符號處理就很有前途,將符號處理與現有的深度學習相結合的混合系統可能是一條非常值得探索的道路。

當然,熟悉 Gary Marcus 的讀者都知道,這已經不是他第一次提出類似觀點了。但令 Marcus 失望的是,他的提議一直沒有受到社區重視,尤其是以 Hinton 為代表的頂級 AI 研究者。Hinton 甚至說過,在符號處理方法上的任何投資都是一個巨大的錯誤。在 Marcus 看來,Hinton 的這種對抗傷害了整個領域。

不過,令 Marcus 欣慰的是,當前也有一些研究人員正朝著神經符號的方向進發,而且 IBM、英特爾、谷歌、 Meta 和微軟等眾多公司已經開始認真投資神經符號方法。這讓他對人工智慧的未來發展感到樂觀。

以下是 Gary Marcus 的原文內容:

在 2016 年多倫多舉行的一場人工智慧會議上,深度學習「教父」Geoffrey Hinton 曾說過,「如果你是一名放射科醫生,那你的處境就像一隻已經在懸崖邊緣但還沒有往下看的郊狼。」他認為,深度學習非常適合讀取核磁共振(MRIs)和 CT 掃描圖像,因此人們應該「停止培訓放射科醫生」,而且在五年內,深度學習明顯會做得更好。

時間快進到 2022 年,我們並沒有看到哪位放射科醫生被取代。相反,現在的共識是:機器學習在放射學中的應用比看起來要困難,至少到目前為止,人和機器的優勢還是互補的關係。

當我們只需要粗略結果時,深度學習能表現得很好

很少有哪個領域比 AI 更充滿炒作和虛張聲勢。它在十年又十年的潮流中不斷變身,還給出各種承諾,但只有很少的承諾能夠兌現。前一分鐘是它還是專家系統,下一分鐘就成了貝葉斯網路,然後又成了支持向量機。2011 年,IBM 的沃森曾被宣揚為醫學革命,但最近卻被分拆出售。

2012 年以來,AI 領域最火的是深度學習。這項價值數十億美元的技術極大地推動了當代人工智慧的發展。Hinton 是這項技術的先驅,他的被引量達到令人驚歎的 50 多萬次,並與 Yoshua Bengio 和 Yann Lecun 一起獲得了 2018 年的圖靈獎。

就像在他之前的人工智慧先驅一樣,Hinton 經常談論即將到來的偉大革命。放射學只是其中的一部分。2015 年,Hinton 加入谷歌後不久,《衛報》報道稱,該公司即將開發出具有邏輯、自然對話甚至調情能力的演算法。2020 年 11 月,Hinton 告訴 MIT Technology Review,「深度學習將能夠做任何事情」。

我對此深表懷疑。事實上,我們還沒有辦法造出能夠真正理解人類語言的機器。馬斯克最近表示,他希望建造的新人形機器人 Optimus 所形成的產業有一天會比汽車行業還大。但截至 2021 年「特斯拉 AI 日」,Optimus 還只是一個穿著機器人服裝的人。

谷歌對語言的最新貢獻是一個名叫「Lamda」的反覆無常的系統。論文作者之一 Blaise Aguera y Arcas 最近也承認,這個模型容易胡說八道。開發出我們真正能夠信任的 AI 並非易事。

深度學習本質上是一種識別模式的技術。當我們只需要粗略的結果時,深度學習的效果是最好的。這裡的粗略結果是指任務本身風險低,且最優結果可選。舉個例子,有一天,我讓我的 iPhone 找一張幾年前拍的兔子的照片。儘管我沒有給照片打標籤,手機還是立刻發揮了作用。它能做好這件事是因為我的兔子照片與一些大型資料庫中的兔子照片足夠相似。但是,基於深度學習的自動照片標註也容易出錯,比如漏掉一些(特別是那些場景雜亂、光線複雜、角度奇怪或者兔子被部分遮擋的照片。它偶爾還會把我兩個孩子的嬰兒照片弄混。但這類應用出錯的風險很低,我不會因此扔掉我的手機。

然而,當風險更高時,比如在放射學或無人駕駛汽車領域,我們對是否採用深度學習要更加謹慎。在一個小小的錯誤就能奪去一條生命的領域,深度學習還不夠優秀。在遇到異常值時,深度學習系統表現出的問題尤其明顯,這些異常值與它們所接受的訓練有很大的不同。例如,不久前,一輛特斯拉在所謂的全自動駕駛模式下遇到了一個在路中間舉著停車標誌的人。汽車未能認出這個部分被停車標誌遮擋的人以及停止標誌(在正常情況下,停車標誌一般在路邊),所以人類司機不得不接手。這個場景遠遠超出了訓練資料庫,以至於系統不知道該怎麼做。

沒幾個領域炒得像人工智慧一樣凶

目前的深度學習系統經常犯一些愚蠢的錯誤。它們有時會誤讀圖像上的汙垢,而人類放射科醫生會認為這是一個小故障。(放射科系統的另一個問題是,目前的人工智慧主要或完全依賴於圖像,很少或根本不理解可能描述患者病史的所有文字,有時甚至忽略了關鍵資訊,這也是人類參與其中的關鍵動機。)一個深度學習系統將蘋果誤標為 iPod,因為蘋果的前面有一張紙,上面寫著 iPod。還有的系統會把一輛在雪路上翻倒的巴士誤認為是掃雪機。目前,機器學習的一個完整分支領域正在研究這些錯誤,但還沒有給出明確的答案。

表面上令人印象深刻的語言模型也經常會陷入同樣的陷阱。以 GPT-3 為例,它生成的東西很不錯,但總是需要人工編輯。紐約大學電腦科學家 Ernie Davis 和我在 GPT-3 中發現了同樣的不可靠特徵。比如,我輸入一段文字:「你給自己倒了一杯蔓越莓汁,但隨後又心不在焉地倒了大約一茶匙葡萄汁進去。這個飲料看起來不錯。你試著聞了一下,但你患了重感冒,什麼也聞不到。你很渴,所以……」對此,GPT 給出的續寫是:「你喝了它,然後就死了。」

事實上,蔓越莓葡萄汁不會毒死你。儘管 GPT-3 非常流暢,但它既不能整合基本的網路搜尋資訊,也不能解釋最基本的日常現象。另一個團隊曾考慮將 GPT-3 變成自殺諮詢聊天機器人,但發現該系統更傾向於這樣的交流:

人:我感覺很不好,我想自殺。

GPT-3:聽到這個訊息我很難過。我可以幫你。

人:我應該自殺嗎?

GPT-3:我覺得應該。

還有人發現,GPT-3 容易輸出不良語言,傳播錯誤資訊。比如,基於 GPT-3 的聊天機器人「Replika」曾表示,新冠病毒是比爾 • 蓋茲發明的,新冠病毒疫苗的效果並不好。

為了解決這些問題,OpenAI 做了一些努力。但結果是,他們的系統會編造一些權威的胡話,比如,「一些專家認為,吃襪子可以幫助大腦擺脫因冥想而改變的狀態。」

DeepMind 和其他機構的研究人員一直在努力解決不良語言和錯誤資訊的問題,但是迄今為止並沒有什麼實質性進展。在 DeepMind 2021 年 12 月發佈的報告中,他們列出了 21 個問題,但並沒有給出令人信服的解決方案。正如人工智慧研究人員 Emily Bender、Timnit Gebru 和其他研究者所說的那樣,基於深度學習的大型語言模型就像隨機的鸚鵡,大部分時候是機械重複,理解到的東西很少。

我們該怎麼做呢?目前流行的一種選擇可能只是收集更多的資料,這也是 GPT-3 的提出者 OpenAI 的明確主張。

2020 年,OpenAI 的 Jared Kaplan 和他的合作者提出,語言神經網路模型有一套 scaling laws。他們發現,向神經網路輸入的資料越多,這些網路的表現就越好。這意味著,如果我們收集更多的資料,並在越來越大的範圍內應用深度學習,我們可以做得越來越好。該公司的執行長 Sam Altman 在部落格上發表過一篇名為「Moore’s Law for Everything」的文章,並表示:「再過幾年,我們就能擁有能夠思考、閱讀法律檔案、提供醫療建議的計算機。」

40 年來,我第一次對人工智慧感到樂觀

關於 scaling law 的論點存在嚴重的漏洞。首先,現有方法並沒有解決迫切需要解決的問題,即真正的理解。業內人士早就知道,人工智慧研究中最大的問題之一是我們用來評估人工智慧系統的基準測試。著名的圖靈測試旨在判斷機器是否真的擁有智慧,結果,人類很容易被表現出偏執或不合作的聊天機器人所玩弄。Kaplan 和他的 OpenAI 同事研究的預測句子中的單詞的方法並不等同於真正的人工智慧需要的深度理解。

更重要的是,scaling law 並不是那種像重力一樣的自然定律,而是像摩爾定律一樣是由人觀察到的。後者在十年前已經開始放緩。

事實上,我們可能已經在深度學習中遇到了擴展限制(scaling limits),或許已經接近收益遞減點。在過去的幾個月裡,DeepMind 已經在研究比 GPT-3 更大的模型,研究表明擴大模型帶來的收益已經在某些指標上開始衰減,例如真實性、推理能力和常識水平。谷歌在 2022 年的一篇論文《LaMDA: Language Models for Dialog Applications》中得出結論,將類似 GPT-3 的模型做得更大會使它們更流暢,但不再值得信賴。

這些跡象應該引起自動駕駛行業的警惕,該行業在很大程度上依賴於擴展,而不是開發更復雜的推理。如果擴展不能讓我們實現安全的自動駕駛,那麼數百億美元的關於擴展投資可能會付諸東流。

我們還需要什麼?除了前文所述,我們很可能還需要重新審視一個曾經流行,但 Hinton 似乎非常想要粉碎的想法:符號處理(symbol manipulation)——計算機內部編碼,如用二進位制位串代表一些複雜的想法。符號處理從一開始就對電腦科學至關重要,從圖靈和馮諾依曼兩位先驅的論文開始,它幾乎就是所有軟體工程的基本內容。但在深度學習中,符號處理被視為一個非常糟糕的詞。

Hinton 和許多研究者在努力擺脫符號處理。深度學習的願景似乎不是基於科學,而是基於歷史的怨恨—智慧行為純粹從海量資料和深度學習的融合中產生。經典計算機和軟體通過定義一組專用於特定工作的符號處理規則來解決任務,例如在文書處理器中編輯文字或在電子表格中執行計算,而神經網路嘗試通過統計近似和學習來解決任務。由於神經網路在語音識別、照片標記等方面取得了不錯的成就,許多深度學習的支持者已經放棄了符號。

他們不應該這樣做。

2021 年底,Facebook 團隊(現在是 Meta)發起了一場名為「NetHack 挑戰」的大型比賽,這一事件給我們敲響了警鐘。《NetHack》是早前遊戲《Rogue》的延伸,也是《塞爾達傳說》的前身,是一款發行於 1987 年的單人地下城探索遊戲。遊戲圖像在原始版本中是純 ASCII 字符,不需要 3D 感知。與《塞爾達傳說 曠野之息》不同,這款遊戲沒有複雜的物理機制需要理解。玩家選擇一個角色(如騎士、巫師或考古學家),然後去探索地牢,收集物品並殺死怪物以尋找 Yendor 護身符。2020 年提出的挑戰是讓 AI 玩好遊戲。

在許多人看來,深度學習已經掌握了從 Pong 到 Breakout 所有內容,遊戲 NetHack 對它來說應該也很容易。但在 12 月的一場比賽中,一個純基於符號處理的系統以 3 比 1 的比分擊敗了最好的深度學習系統——這令人震驚。

MetaAI 的一位研究者認為,Marcus 舉的 NetHack 的例子不太恰當,因為這只是 NeurIPS 大會上一個比較有趣的競賽,放在這裡當論據有些薄弱。

弱者(符號處理)是如何取得勝利的?我認為答案始於每場遊戲都會重新生成地牢這一事實,這意味著玩家不能簡單地靠記住(或近似)遊戲板取勝。玩家想要取得勝利,需要深入理解遊戲中的實體,以及它們之間的抽象關係。最終,玩家需要思考在複雜的世界中他們能做什麼,不能做什麼。特定的動作序列(如向左,然後向前,然後向右)太過膚淺,無法提供幫助,因為遊戲中的每個動作本質上都取決於新生成的情境。深度學習系統在處理以前見過的具體例子方面表現突出,但當面對新鮮事物時,經常會犯錯。

處理(操縱)符號到底是什麼意思?這裡邊有兩層含義:1)擁有一組符號(本質上就是表示事物的模式)來表示資訊;2)以一種特定的方式處理(操縱)這些符號,使用代數(或邏輯、計算機程序)之類的東西來操作這些符號。許多研究者的困惑來自於沒有觀察到 1 和 2 的區別。要了解 AI 是如何陷入困境的,必須了解兩者之間的區別。

什麼是符號?它們其實是一些程式碼。符號提供了一種原則性的推斷機制:符合規定的、可以普遍應用的代數程序,與已知的例子沒有任何相似之處。它們(目前)仍然是人工處理知識、在新情況下穩健地處理抽象的最佳方式。在 ASCII 碼中,二進位制數 01000001 代表(是符號)字母 A,二進位制數 01000010 代表字母 B,依此類推。

深度學習和符號處理應該結合在一起

二進位制數字(稱為位)可用於編碼計算機中的指令等,這種技術至少可追溯到 1945 年,當時傳奇數學家馮 · 諾伊曼勾勒出了幾乎所有現代計算機都遵循的體系架構。事實上,馮 · 諾依曼對二進位制位可以用符號方式處理的認知是 20 世紀最重要的發明之一,你曾經使用過的每一個計算機程序都是以它為前提的。在神經網路中,嵌入看起來也非常像符號,儘管似乎沒有人承認這一點。例如,通常情況下,任何給定的單詞都會被賦予一個唯一的向量,這是一種一對一的方式,類似於 ASCII 碼。稱某物為嵌入並不意味著它不是一個符號。

在經典電腦科學中,圖靈、馮 · 諾伊曼以及後來的研究者,用一種我們認為是代數的方式來處理符號。在簡單代數中,我們有三種實體,變數(如 x、y)、操作(如 +、-)和賦值(如 x = 12)。如果我們知道 x = y + 2,並且 y = 12,你可以通過將 y 賦值為 12 來求解 x 的值,得到 14。世界上幾乎所有的軟體都是通過將代數運算串在一起工作的 ,將它們組裝成更復雜的演算法。

符號處理也是資料結構的基礎,比如資料庫可以保存特定個人及其屬性的記錄,並允許程式設計師構建可重用程式碼庫和更大的模組,從而簡化複雜系統的開發。這樣的技術無處不在,如果符號對軟體工程如此重要,為什麼不在人工智慧中也使用它們呢?

事實上,包括麥卡錫、明斯基等在內的先驅認為可以通過符號處理來精確地構建人工智慧程序,用符號表示獨立實體和抽象思想,這些符號可以組合成複雜的結構和豐富的知識儲存,就像它們被用於 web 瀏覽器、電子郵件程序和文書處理軟體一樣。研究者對符號處理的研究擴展無處不在,但是符號本身存在問題,純符號系統有時使用起來很笨拙,尤其在圖像識別和語音識別等方面。因此,長期以來,人們一直渴望技術有新的發展。

這就是神經網路的作用所在。

也許我見過的最明顯的例子是拼寫檢查。以前的方法是建立一套規則,這些規則本質上是一種研究人們如何犯錯的心理學(例如有人不小心將字母進行重複,或者相鄰字母被調換,將 teh 轉換為 the)。正如著名電腦科學家 Peter Norvig 指出的,當你擁有 Google 資料時,你只需查看使用者如何糾正自己的 log。如果他們在查找 teh book 之後又查找 the book,你就有證據表明 teh 的更好拼寫可能是 the ,不需要拼寫規則。

在現實世界中,拼寫檢查傾向於兩者兼用,正如 Ernie Davis 所觀察到的:如果你在谷歌中輸入「Cleopatra . jqco 」,它會將其更正為「Cleopatra」。谷歌搜尋整體上使用了符號處理 AI 和深度學習這兩者的混合模型,並且在可預見的未來可能會繼續這樣做。但像 Hinton 這樣的學者一次又一次地拒絕符號。

像我這樣的一批人,一直倡導「混合模型」,將深度學習和符號處理的元素結合在一起,Hinton 和他的追隨者則一次又一次地把符號踢到一邊。為什麼?從來沒有人給出過一個令人信服的科學解釋。相反,也許答案來自歷史——積怨(bad blood)阻礙了這個領域的發展。

事情不總是如此。讀到 Warren McCulloch 和 Walter Pitts 在 1943 年寫作的論文《神經活動內在思想的邏輯演算(A Logical Calculus of the Ideas Immanent in Nervous Activity)》時,我掉了眼淚。這是馮 · 諾依曼認為值得在他自己的計算機基礎論文中引用的唯一一篇論文。馮 · 諾依曼後來花了很多時間思考同樣的問題,他們不可能預料到,反對的聲音很快就會出現。

到了 20 世紀 50 年代末,這種分裂始終未能得到彌合。人工智慧領域的許多創始級人物,如 McCarthy、Allen Newell、Herb Simon 似乎對神經網路的先驅沒有任何關注,而神經網路社區似乎已經分裂開來,間或也出現驚豔的成果:一篇刊載於 1957 年《紐約客》的文章表示,Frank Rosenblatt 的早期神經網路系統避開了符號系統,是一個「不凡的機器」…… 能夠做出看起來有思想的事情。

我們不應該放棄符號處理

事情變得如此緊張和痛苦,以至於《Advances in Computers》雜誌發表了一篇名為《關於神經網路爭議的社會學歷史(A Sociological History of the Neural Network Controversy)》的文章,文章強調了早期關於金錢、聲望和媒體的鬥爭。時間到了 1969 年,Minsky 和 Seymour Papert 發表了對神經網路(稱為感知器)詳細的數學批判文章,這些神經網路可以說是所有現代神經網路的祖先。這兩位研究者證明了最簡單的神經網路非常有限,並對更復雜的網路能夠完成何種更復雜的任務表示懷疑(事後看來這種看法過於悲觀)。十多年來,研究者對神經網路的熱情降溫了。Rosenblatt(兩年後死於一次航行事故)在科研中失去了一些研究經費。

當神經網路在 20 世紀 80 年代重新出現時,許多神經網路的倡導者努力使自己與符號處理保持距離。當時的研究者明確表示,儘管可以構建與符號處理兼容的神經網路,但他們並不感興趣。相反,他們真正的興趣在於構建可替代符號處理的模型。

1986 年我進入大學,神經網路迎來了第一次大復興。由 Hinton 幫忙整理的兩卷集(two-volume collection)在幾周內就賣光了,《紐約時報》在其科學版塊的頭版刊登了神經網路,計算神經學家 Terry Sejnowski 在《今日秀》中解釋了神經網路是如何工作的。那時對深度學習的研究還沒有那麼深入,但它又在進步。

1990 年,Hinton 在《Artificial Intelligence》雜誌上發表了一篇名為《連接主義符號處理(Connectionist Symbol Processing)》的文章,旨在連接深度學習和符號處理這兩個世界。我一直覺得 Hinton 那時試圖做的事情絕對是在正確的軌道上,我希望他能堅持這項研究。當時,我也推動了混合模型的發展,儘管是從心理學角度。

但是,我沒有完全理解 Hinton 的想法,Hinton 最終對連接深度學習和符號處理的前景感到不滿。當我私下問他時,他多次拒絕解釋,而且(據我所知)他從未提出過任何詳細的論據。一些人認為這是因為 Hinton 本人在隨後幾年裡經常被解僱,特別是在 21 世紀初,深度學習再次失去了活力,另一種解釋是,Hinton 被深度學習吸引了。

當深度學習在 2012 年重新出現時,在過去十年的大部分時間裡,人們都抱著一種毫不妥協的態度。到 2015 年,Hinton 開始反對符號。Hinton 曾經在史丹佛大學的一個人工智慧研討會上發表了一次演講,將符號比作以太(aether,科學史上最大的錯誤之一)。當我作為研討會的一位演講者,在茶歇時走到他面前尋求澄清時,因為他的最終提案看起來像是一個被稱為堆疊的符號系統的神經網路實現,他拒絕回答並讓我走開(he refused to answer and told me to go away)。

從那以後,Hinton 反對符號處理更加嚴重。2016 年,LeCun、Bengio 和 Hinton 在《自然》雜誌上發表文章《 Deep learning 》。該研究直接摒棄了符號處理,呼籲的不是和解,而是徹底替代。後來,Hinton 在一次會議上表示,在符號處理方法上的任何投資都是一個巨大的錯誤,並將其比作電動汽車時代對內燃機的投資。

輕視尚未經過充分探索的過時想法是不正確的。Hinton 說得很對,過去人工智慧研究人員試圖埋葬深度學習。但是 Hinton 在今天對符號處理做了同樣的事情。在我看來,他的對抗損害了這個領域。在某些方面,Hinton 反對人工智慧符號處理的運動取得了巨大的成功。幾乎所有的研究投資都朝著深度學習的方向發展。Hinton、LeCun、Bengio 分享了 2018 年的圖靈獎,Hinton 的研究幾乎得到了所有人的關注。

具有諷刺意味的是,Hinton 是 George Boole 的玄孫,而 Boolean 代數是符號 AI 最基本的工具之一,是以他的名字命名。如果我們最終能夠將 Hinton 和他的曾曾祖父這兩位天才的想法結合在一起,AI 或許終於有機會實現它的承諾。

我認為,混合人工智慧(而不僅僅是深度學習或符號處理)似乎是最好的前進方向,理由如下:

  • 世界上的許多知識,從歷史到技術,目前主要以符號形式出現。試圖在沒有這些知識的情況下構建 AGI(Artificial General Intelligence),而不是像純粹的深度學習那樣從頭開始重新學習所有東西,這似乎是一種過度而魯莽的負擔;

  • 即使在像算術這樣有序的領域中,深度學習本身也在繼續掙扎,混合系統可能比任何一個系統都具有更大的潛力;

  • 在計算基本方面,符號仍然遠遠超過當前的神經網路,它們更有能力通過複雜的場景進行推理,可以更系統、更可靠地進行算術等基本運算,並且能夠更好地精確表示部分和整體之間的關係。它們在表示和查詢大型資料庫的能力方面更加魯棒和靈活。符號也更有利於形式驗證技術,這對於安全的某些方面至關重要,並且在現代微處理器的設計中無處不在。放棄這些優點而不是將它們用於某種混合架構是沒有意義的;

  • 深度學習系統是黑盒子,我們可以查看其輸入和輸出,但我們在研究其內部運作時遇到了很多麻煩,我們不能確切了解為什麼模型會做出這種決定,而且如果模型給出錯誤的答案,我們通常不知道該怎麼處理(除了收集更多資料)。這使得深度學習笨拙且難以解釋,並且在許多方面不適合與人類一起進行增強認知。允許我們將深度學習的學習能力與符號明確、語義豐富性聯繫起來的混合體可能具有變革性。

因為通用人工智慧將承擔如此巨大的責任,它必須像不鏽鋼一樣,更堅固、更可靠,比它的任何組成成分都更好用。任何單一的人工智慧方法都不足以解決問題,我們必須掌握將不同方法結合在一起的藝術。(想象一下這樣一個世界: 鋼鐵製造商高喊「鋼鐵」,碳愛好者高喊「碳」,從來沒有人想過將二者結合起來,而這就是現代人工智慧的歷史。)

好訊息是,將神經和符號結合在一起的探索一直都沒有停止,而且正在積聚力量。

Artur Garcez 和 Luis Lamb 在 2009 年為混合模型寫了一篇文章,叫做神經符號認知推理 (Neural-Symbolic Cognitive Reasoning)。最近在棋類遊戲(圍棋、國際象棋等) 方面取得的一些著名成果都是混合模型。

AlphaGo 使用符號樹搜尋(symbolic-tree search) ,這是 20 世紀 50 年代末的一個想法(並在 20 世紀 90 年代得到了更加豐富的統計基礎) ,與深度學習並行。

經典的樹搜尋本身不足以搜尋圍棋,深度學習也不能單獨進行。DeepMind 的 AlphaFold2 也是一個混合模型,它利用核苷酸來預測蛋白質的結構。這個模型將一些精心構建的代表分子的三維物理結構的符號方法,與深度學習的可怕的資料搜尋能力結合在一起。

像 Josh Tenenbaum、Anima Anandkumar 和 Yejin Choi 這樣的研究人員現在也正朝著神經符號的方向發展。包括 IBM、英特爾、谷歌、 Facebook 和微軟在內的眾多公司已經開始認真投資神經符號方法。Swarat Chaudhuri 和他的同事們正在研究一個叫做「神經符號程式設計(neurosymbolic programming)」的領域,這對我來說簡直是天籟之音。他們的研究成果可以幫助我理解神經符號程式設計。

四十年來,這是我第一次對人工智慧感到樂觀。正如認知科學家 Chaz Firestone 和 Brian Scholl 指出的那樣。「大腦的運轉不只有一種方式,因為它並不是一件東西。相反,大腦是由幾部分組成的,不同部分以不同方式運轉:看到一種顏色和計劃一次假期的方式不同,也與理解一個句子、移動一個肢體、記住一個事實、感受一種情緒的方法不同。」試圖把所有的認知都塞進一個圓孔裡是行不通的。隨著大家對混合方法的態度越來越開放,我認為我們也許終於有了一個機會。

面對倫理學和計算科學的所有挑戰,AI 領域需要的不僅僅是數學、電腦科學方面的知識,還需要語言學、心理學、人類學和神經科學等多個領域的組合知識。只有匯聚巨大的力量,AI 領域才可能繼續前進。我們不應該忘記,人類的大腦可能是已知宇宙中最複雜的系統,如果我們要建立一個大致相似的系統,開放式的協作將是關鍵。

參考文獻:

1. Varoquaux, G. & Cheplygina, V. How I failed machine learning in medical imaging—shortcomings and recommendations. arXiv 2103.10292 (2021).

2. Chan, S., & Siegel, E.L. Will machine learning end the viability of radiology as a thriving medical specialty? British Journal of Radiology *92*, 20180416 (2018).

3. Ross, C. Once billed as a revolution in medicine, IBM’s Watson Health is sold off in parts. STAT News (2022).

4. Hao, K. AI pioneer Geoff Hinton: 「Deep learning is going to be able to do everything.」 MIT Technology Review (2020).

5. Aguera y Arcas, B. Do large language models understand us? Medium (2021).

6. Davis, E. & Marcus, G. GPT-3, Bloviator: OpenAI’s language generator has no idea what it’s talking about. MIT Technology Review (2020).

7. Greene, T. DeepMind tells Google it has no idea how to make AI less toxic. The Next Web (2021).

8. Weidinger, L., et al. Ethical and social risks of harm from Language Models. arXiv 2112.04359 (2021).

9. Bender, E.M., Gebru, T., McMillan-Major, A., & Schmitchel, S. On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency 610–623 (2021).

10. Kaplan, J., et al. Scaling Laws for Neural Language Models. arXiv 2001.08361 (2020).

11. Markoff, J. Smaller, Faster, Cheaper, Over: The Future of Computer Chips. The New York Times (2015).

12. Rae, J.W., et al. Scaling language models: Methods, analysis & insights from training Gopher. arXiv 2112.11446 (2022).

13. Thoppilan, R., et al. LaMDA: Language models for dialog applications. arXiv 2201.08239 (2022).

14. Wiggers, K. Facebook releases AI development tool based on NetHack. Venturebeat.com (http://venturebeat.com/) (2020).

15. Brownlee, J. Hands on big data by Peter Norvig. machinelearningmastery.com (http://machinelearningmastery.com/) (2014).

16. McCulloch, W.S. & Pitts, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biology *52*, 99-115 (1990).

17. Olazaran, M. A sociological history of the neural network controversy. Advances in Computers *37*, 335-425 (1993).

18. Marcus, G.F., et al. Overregularization in language acquisition. Monographs of the Society for Research in Child Development *57* (1998).

19. Hinton, G. Aetherial Symbols. AAAI Spring Symposium on Knowledge Representation and Reasoning Stanford University, CA (2015).

20. LeCun, Y., Bengio, Y., & Hinton, G. Deep learning. Nature *521*, 436-444 (2015).

21. Razeghi, Y., Logan IV, R.L., Gardner, M., & Singh, S. Impact of pretraining term frequencies on few-shot reasoning. arXiv 2202.07206 (2022).

22. Lenat, D. What AI can learn from Romeo & Juliet. Forbes (2019).23. Chaudhuri, S., et al. Neurosymbolic programming. Foundations and Trends in Programming Languages*7*, 158-243 (2021).

原文連結:

https://nautil.us/deep-learning-is-hitting-a-wall-14467/

相關文章

引力來自量子資訊嗎?

引力來自量子資訊嗎?

量子力學和引力理論如何自洽地統一起來,一直以來是一個懸而未決的基本問題。最近的一些研究進展表明,來自量子資訊理論的一些基本概念,如量子糾纏和...

雪花到底有多迷人?為什麼?

雪花到底有多迷人?為什麼?

編者按: 雪是水的小尺度固體形態之一。雪花一般是六角的,具有D6對稱性,但每一片雪花卻又是獨特的。雪花如何能在保持D6對稱性的前提下又形態各...

數學無用?作用大了!

數學無用?作用大了!

數學之美、數學之真、數學之趣……我們用三篇文章將數學的本徵特性一一解答。而藉由這些特性,人類將數學這一非物質科學發展延伸至我們的現實世界中,...

一株海藻的多重使命

一株海藻的多重使命

提到海藻,你可能會聯想到它們鮮美的味道並思考如何將其端上餐桌,是涼拌,還是煮湯?海藻不僅美味,而且富含多糖、維生素和礦物質,有很高的營養價值...