史丹佛教授曼寧AAAS特刊發文:大模型已成突破,展望通用人工智慧

編輯:澤南、小舟

NLP 正在推動人工智慧進入激動人心的新時代。

當前人工智慧領域熱度最高的方向就是預訓練大模型了,很多人相信,這項研究已在通用人工智慧領域初顯成效。

自然語言處理領域著名學者,史丹佛大學教授克里斯托弗 · 曼寧(Christopher Manning)近期在美國人文與科學學院(AAAS)期刊的 AI & Society 特刊上發表了題為《Human Language Understanding & Reasoning》的文章,探討了語義、語言理解的本質,展望了大模型的未來。

曼寧認為,隨著 NLP 領域的技術突破,我們或許已在通用人工智慧(Artificial general intelligence, AGI)方向上邁出了堅定的一步。

摘要

摘要

在過去十年中,簡單的神經網路計算方式在自然語言處理方面取得了巨大而令人驚訝的突破,人們在超大規模情況下複製了成功,並在大量資料上進行了訓練。由此產生的預訓練語言模型,如 BERT 和 GPT-3,提供了強大的通用語言理解和生成基礎,可以輕鬆適應許多理解、寫作和推理任務。

這些模型展示了一種更為通用的人工智慧形式的初步跡象,這可能會在感知體驗領域產生強大的基礎模型,而不僅僅侷限於語言。

NLP 領域的四個時代

當科學家思考人工智慧時,大多會首先想到建模或重建單個人腦的能力。不過,現代人類智慧遠不止單個大腦的智慧。

人類的語言很強大,並且對我們的物種產生了深遠影響,因為它為人群整體提供了一種將大腦聯網的方式。一個人可能並不比我們的黑猩猩或倭黑猩猩的近親聰明太多。這些猿類已被證明擁有人類智慧的許多標誌性技能,例如使用工具和計劃。此外,它們的短期記憶力甚至比我們強。

人類發明語言的時間也許永遠是個謎,但可以相對肯定的是,在地球生命漫長的進化史中,人類直到最近才發展出語言。原猴、猴子和猿類的共同祖先可以追溯到大約 6500 萬年前。人類大約在 600 萬年前與黑猩猩分離,而人類語言的歷史通常被認為只有幾十萬年。

人類發展了語言後,交流的力量讓智人迅速超越其他生物,儘管我們沒有大象那麼強壯,也沒有獵豹那麼快。直到最近,人類才發明了文字(可能僅在五千多年前),讓知識可以跨越時空界限進行交流。在短短几千年時間裡,這種資訊共享機制將我們從青銅時代帶到了今天的智慧手機。允許人類之間進行理性討論和資訊分發的高保真程式碼,允許複雜社會的文化演變,催生著現代技術背後的知識。語言的力量是人類社會智慧的基礎,在人工智慧工具增強人類能力的未來世界中,語言將繼續發揮重要作用。

由於這些原因,自然語言處理(NLP)領域與人工智慧的最早發展同步出現。事實上,機器翻譯 NLP 問題的初步工作,包括 1954 年著名的 Georgetown-IBM 實驗,實現了史上首例機器翻譯,略早於 1956 年人工智慧」一詞的創造。在本文中,我簡要概述了自然語言的歷史加工。然後,我描述了 NLP 最近的戲劇性發展,這些發展來自使用在大量資料上訓練的大型人工神經網路模型。我追溯了使用這些技術構建有效 NLP 系統所取得的巨大進步,並總結了一些關於這些模型實現了什麼,以及下一步將走向何方的想法。

迄今為止,自然語言處理的歷史大致可以分為四個時代。

第一個時代從 1950 年到 1969 年。NLP 研究始於機器翻譯研究。人們想象,翻譯可以迅速建立在計算機在二戰期間破譯密碼巨大成功的基礎上。冷戰時期的雙方研究人員都在尋求開發能夠轉化其他國家科研成果的系統。然而在這個時代的開始,人們對人類語言、人工智慧或機器學習的結構幾乎一無所知。回想起來,可用的計算量和資料量小得可憐。儘管最初的系統被大肆宣傳,但這些系統僅提供了詞級翻譯查找和一些簡單的,不是很有原則的基於規則的機制來處理詞的屈折形式(詞形變化)和詞序。

第二個時代,從 1970 年到 1992 年,我們見證了一系列 NLP 演示系統的發展,這些演示系統在處理人類語言中的句法和引用等現象方面表現出複雜性和深度。這些系統包括 Terry Winograd 的 SHRDLU、Bill Woods 的 LUNAR、Roger Schank 的系統,如 SAM、Gary Hendrix 的 LIFER 和 Danny Bobrow 的 GUS。這些都是人們手工構建的基於規則的系統,但他們開始建模和使用人類語言理解的一些複雜性。一些系統甚至被部署用於資料庫查詢等任務。語言學和基於知識的人工智慧正在迅速發展,在這個時代的第二個十年裡出現了新一代的手工構建系統,它與聲明性和語言知識及其程序處理區分開來,並受益於一系列更現代的語言理論的發展。

然而我們的工作方向在 1993 年到 2012 年間的第三個時代發生了顯著變化。在此期間,數字文字變得豐富,最適用的方向是開發能夠在大量自然語言內容上實現某種程度語言理解的演算法,並利用文字的存在來幫助獲得這種能力。這導致該領域圍繞 NLP 的經驗機器學習模型在根本上被重新定位,這一方向至今仍占主導地位。

在這個時期初期,我們主要的方法是掌握合理數量的線上文字——當時的文字集合一般在幾千萬字以下——並從中提取某種模型資料,主要是通過計算特定事實。例如,你可能發現人識別的事物類型在人的位置(如城市、城鎮或堡壘)和隱喻概念(如想象力、注意力或本質)之間相當均衡。但是對單詞的計數僅能提供語言理解設備,早期從文字集合中學習語言結構的經驗嘗試相當不成功。這導致該領域的大部分人專注於構建帶註釋的語言資源,例如標記單詞、文字中的人名或公司名稱的實例,或樹庫中句子的語法結構,然後使用監督機器學習技術構建模型,該模型可以在運行時在新文字片段上生成類似的標籤。

自 2013 年至今,我們擴展了第三個時代的經驗方向,但由於引入了深度學習 / 人工神經網路方法,工作已經發生了巨大的變化。

在新方法中,單詞和句子由(數十或千維)實值向量空間中的位置表示,含義或句法的相似性由該空間中的接近度表示。從 2013 年到 2018 年,深度學習為構建高性能模型提供了一種更強大的方法,其更容易對更遠距離的上下文進行建模,並且模型可以更好地泛化到具有相似含義的單詞或短語上,因為它們可以利用向量空間中的鄰近性,而不是依賴於符號的同一性(例如詞形或詞性)。然而,該方法在構建監督機器學習模型以執行特定分析任務方面沒有改變。

在 2018 年,一切都發生了變化,超大規模自監督(self-supervised)神經網路學習的第一個重大成功就在 NLP 上。在這種方法中,系統可以通過接觸大量文字(現在通常是數十億字)來學習大量的語言和世界知識。實現這一點的自監督方法是讓 AI 系統從文字中自行創建預測挑戰,例如在給定先前單詞的情況下連續識別文字中的每個「下一單詞」,或填充文字中遮掩的單詞或短語。通過數十億次重複這樣的預測任務並從錯誤中學習,模型在下一次給定類似的文字上下文時會做得更好,積累了對語言和世界的一般知識,然後可以將這些知識部署到更多人們感興趣的任務中,例如問答或文字分類。

為什麼大模型是突破

事後看來,大規模自監督學習方法的發展很可能被視為一次革命,第三個時代可能會延長到 2017 年。預訓練自監督方法的影響是一個突破:現在我們可以在大量未標記的人類語言材料上訓練,生成一個大型預訓練模型,其可以很容易地通過微調或提示進行調整,在各種自然語言理解和生成任務上提供強大的結果。現在,人們對 NLP 的進步和關注爆發了。出現了一種樂觀的感覺,我們開始看到具有一定程度通用智慧的知識灌輸系統的出現。

我無法在此完整描述目前占主導地位的人類語言神經網路模型。大體上,這些模型通過實數向量表示一切,並且能夠在接觸到許多資料後通過從某些預測任務到單詞表示的錯誤(歸結為進行微積分)的反向傳播來學習很好地表示一段文字。

自 2018 年以來,NLP 應用的主要神經網路模型一直是 Transformer 架構神經網路。Transformer 是一個比幾十年前人類探索的用於單詞序列的簡單神經網路更復雜的模型,主要思想之一是注意力機制——通過它,一個位置的表示被計算為來自其他位置的表示的加權組合。Transformer 模型中一個常見的自監督目標是遮蔽文字中的偶爾出現的單詞,該模型要計算空位上曾經存在的單詞。它通過從每個單詞位置(包括掩碼位置)計算表示該位置的查詢、鍵和值的向量來做到這一點。將某個位置的查詢與每個位置的值進行比較,演算法計算出每個位置的注意力。基於此,計算所有位置的值的加權平均值。

這種操作在 Transformer 神經網路的每一層重複多次,結果值通過一個全連接的神經網路層進一步操作,並通過使用歸一化層和殘差連接為每個單詞生成一個新的向量。整個過程重複多次,為 Transformer 神經網路提供了額外的深度層。最後,掩碼位置上方的表示應捕獲原始文字中的單詞:例如,如圖 1 所示的 committee。

通過 Transformer 神經網路的簡單計算可以實現或學習什麼並不明顯,起初它更像是某種複雜的統計關聯學習器。然而,利用像 Transformer 這樣非常強大、靈活的超參數模型和大量資料來練習預測,模型發現並表徵了人類語言的大部分結構。研究表明這些模型學習和表徵句子的句法結構,並學習記憶許多事實,這些有助於模型成功預測自然語言中被掩碼的詞。

此外,雖然預測一個被掩碼的詞最初似乎是一項相當簡單和低級的任務,但這個任務的結果卻有著強大和普遍的作用。這些模型彙集了它們所接觸的語言和廣泛的現實知識。

只需要再給出進一步的指令,這樣的大型預訓練模型 (LPLM) 就可以部署於許多特定的 NLP 任務。從 2018 年到 2020 年,領域內的標準方法是通過少量額外的監督學習來微調模型,在感興趣的確切任務上對其進行訓練。但最近,研究人員驚訝地發現,這些模型中最大的模型,例如 GPT-3(生成式預訓練 Transformer),只需提示(prompt)即可很好地執行新任務。給模型一個人類語言描述或幾個例子,說明人們希望模型做什麼,模型就可以執行許多它們從未接受過訓練的任務。

大模型帶來的 NLP 新正規化

傳統的自然語言處理模型通常由幾個獨立開發的元件組合而成,通常構建成一個 pipeline,其中首先嚐試捕獲文字的句子結構和低級實體,然後是高級含義的詞彙,這也是饋入一些特定領域的執行元件。在過去的幾年裡,業內已經用 LPLM 取代了這種傳統的 NLP 解決方案,通常經過微調來執行特定的任務。我們可以期待一下 LPLM 在 2020 年代能夠完成哪些目標。

早期的機器翻譯系統涵蓋了有限領域中的有限語言結構。從廣泛的翻譯文字的平行語料庫(parallel corpora)構建大型統計模型,這種方法是可以覆蓋機器翻譯的,這也成就了 2006 年首次推出的 Google 翻譯。

十年後,即 2016 年底,當人們轉向使用神經機器翻譯時,Google 的機器翻譯性能獲得了顯著提高。但新型系統的更新換代越來越快,2020 年基於 Transformer 的神經翻譯系統用不同的神經架構和方法進行了改進。

新系統不是在兩種語言之間進行翻譯的大型系統,而是利用一個巨大的神經網路,同時在谷歌翻譯涵蓋的所有語言上進行訓練,僅用一個簡單的 token 標記不同的語言。雖然這個系統仍會出錯,但機器翻譯不斷在發展,今天的自動翻譯的質量已經非常出色。

例如,將法語翻譯成英語:

Il avait été surnommé, au milieu des années 1930, le « Fou chantant », alors qu’il faisait ses débuts d’artiste soliste après avoir créé, en 1933, un duo à succès avec le pianiste Johnny Hess.

Pour son dynamisme sur scène, silhouette agile, ses yeux écarquillés et rieurs, ses cheveux en bataille, surtout pour le rythme qu’il donnait aux mots dans ses interprétations et l’écriture de ses textes.

He was nicknamed the Singing Madman in the mid-1930s when he was making his debut as a solo artist after creating a successful duet with pianist Johnny Hess in 1933.

For his dynamism on stage, his agile figure, his wide, laughing eyes, his messy hair, especially for the rhythm he gave to the words in his interpretations and the writing of his texts.

在問答系統中,系統在一組文字中查找相關資訊,然後提供特定問題的答案(而不是像早期的 Web 搜尋那樣僅返回建議相關資訊的頁面)。問答系統有許多直接的商業應用,包括售前和售後客戶諮詢。現代神經網路問答系統在提取文字中存在的答案方面具有很高的準確性,甚至可以很好地找出不存在的答案。

例如,從以下英文文字中找到問題的答案:

Samsung saved its best features for the Galaxy Note 20 Ultra, including a more refined design than the Galaxy S20 Ultra–a phone I don’t recommend. You’ll find an exceptional 6.9-inch screen, sharp 5x optical zoom camera and a swifter stylus for annotating screenshots and taking notes.

The Note 20 Ultra also makes small but significant enhancements over the Note 10 Plus, especially in the camera realm. Do these features justify the Note 20 Ultra’s price? It begins at $1,300 for the 128GB version.

The retail price is a steep ask, especially when you combine a climate of deep global recession and mounting unemployment.

三星 Galaxy Note 20 Ultra 的價格是多少?

128GB 版本 1300 美元

Galaxy Note 20 Ultra 有 20 倍光學變焦嗎?

沒有

Galaxy Note 20 Ultra 的光學變焦是多少?

5x

Galaxy Note 20 Ultra 的螢幕有多大?

6.9 英寸

對於常見的傳統 NLP 任務,例如在一段文字中標記人或組織名稱或對文字進行情感傾向分類(正面或負面),當前最好的系統還是基於 LPLM 的,對於特定任務通過提供一組以所需方式標記的樣本進行微調。儘管這些任務在大型語言模型出現之前就可以很好地完成,但大型模型中語言和世界知識的廣度進一步提高了在這些任務上的性能。

最後,LPLM 引發了在生成流暢和連續文字的能力方面的一場革命。除了許多創造性用途之外,此類系統還具有工具性質的用途,例如編寫公式化的新聞文章、自動生成摘要。此外,這樣的系統可以根據放射科醫生的發現提出(或總結)要點來幫助放射科醫生診斷病情。

這些 NLP 系統在許多工上都表現得非常好。事實上,給出一個特定的任務,它們通常可以被訓練成像人類一樣執行這些任務。儘管如此,仍有理由懷疑這些系統是否真的理解它們在做什麼,或者它們是否只是單純地重複一些操作,沒有意義。

以較複雜的程式語言理解為例,程式語言中描述單詞意義主要藉助指稱語義學:單詞、短語或句子的含義是對象或情況的集合,用這種方法描述世界或其數學抽象。這與 NLP 中現代實驗研究的簡單分佈語義(或使用意義理論)形成鮮明對比,單詞的含義不再只是對上下文的描述。

大模型真的理解人類語言嗎?

我認為語言的意義源於理解語言形式與其他事物之間的關聯網路。如果我們擁有一個密集的關聯網路,那麼我們就可以很好地理解語言形式的含義。例如,如果我已知「shehnai」是個印度語詞彙,那麼我對這個詞的含義就能夠有一個合理的概念,它是印度嗩吶;如果我能聽到這種樂器演奏的聲音,那麼我對 shehnai 這個詞會有更豐富的含義理解。

反過來,如果我從未見過或聽過 shehnai 的聲音,但有人告訴我它就像傳統的印度雙簧管,那麼這個詞對我來說也有一些意義:它與印度有關,與管樂器有關,並用來演奏音樂。

如果有人補充說 shehnai 有孔,有多個簧片和像雙簧管一樣的喇叭形末端,那麼我就有更多連接到 shehnai 這個對象的屬性網路。相反,我可能沒有這些資訊,只有幾段使用該詞的上下文,例如:

從一週前開始,有人坐在房子入口處的竹林裡吹奏著 shehnai;Bikash Babu 不喜歡 shehnai 的哀號,但決心滿足新郎家人的所有傳統期望。

儘管在某些方面,我對 shehnai 這個詞的含義理解會較少,但我仍然知道它是一種管狀樂器,這也基於我知道一些額外的文化關聯。

因此,理解語言的含義包括理解語言形式的關聯網路,預訓練語言模型能夠學習語言的含義。除了詞彙本身的含義,預訓練語言模型也掌握了很多實際的知識。很多模型都經過了在百科全書上的訓練,它們知道亞伯拉罕 · 林肯於 1809 年出生於肯塔基州;知道《Destiny’s Child》的主唱是碧昂絲。

就像人類一樣,機器也可以從人類知識儲存庫中受益匪淺。然而,模型對詞義和世界知識的理解往往非常不完整,需要用其他感官資料(sensory data)和知識來增強。大量文字資料首先為探索和構建這些模型提供了一種非常容易訪問的方法,但擴展到其他類型的資料也是非常有必要的。

LPLM 在語言理解任務上的成功,以及將大規模自監督學習擴展到其他資料模式(如視覺、機器人技術、知識圖譜、生物資訊學和多模態資料)令人興奮的前景表明了更通用方向的希望。我們提出了通用類模型的術語基礎模型,通過自監督在大量資料上訓練了數百萬個參數,然後可以輕鬆地適應執行廣泛的下游任務。例如 BERT(來自 Transformers 的雙向編碼器表示) 和 GPT-3 是這種基礎模型的早期示例,但現在正在進行更廣泛的工作。

一個方向是將語言模型與更加結構化的知識儲存連接起來,這些知識儲存表示為知識圖神經網路或運行時要查閱的大量文字。不過最令人興奮和有希望的方向是建立基礎模型(foundation model),使其還可以吸收來自世界的其他感官資料,以實現集成的多模態學習。

這方面的一個例子是最近的 DALL-E 模型,在對成對的圖像和文字的語料庫進行自監督學習後,該演算法可以通過生成相應的圖片來表達新文字的含義。

我們現在還處於基礎模型時代的早期,但在這裡,讓我勾勒出一個可能的未來:大多數資訊處理和分析任務,甚至可能像機器人控制這樣的事情,都將由少數幾個基礎模型之一的特化版接手。這些模型訓練起來既昂貴又耗時,但讓它們適應不同的任務將非常容易。事實上,人們也許可以簡單地使用自然語言指令來做到這一點。

這種在少數模型上的收斂帶來了幾個風險:能夠構建這些模型的機構可能擁有過多的權力和影響力,許多終端使用者可能會受到這些模型中存在偏見的影響,且很難判斷模型是否正確。另外,在特定環境中使用的安全性也存疑,因為模型及其訓練資料非常大。

不論如何,這些模型把大量訓練資料中獲得的知識部署到許多不同任務的能力,將使其變得非常強大,它們還將成為首批在執行許多特定任務時,只需要人類下指示,告訴它如何做就能做到的人工智慧。雖然這些模型最終可能只是模糊地了解一些知識,它們的可能性或許仍然有限,缺乏人類水平的精細邏輯或因果推理能力。但基礎模型的通用有效性意味著它們將得到非常廣泛的部署,它們將在未來十年讓人們第一次看到更普遍的人工智慧形式。

原文連結:

https://www.amacad.org/publication/human-language-understanding-reasoning

相關文章