ChatGPT掀起的NLP大語言模型熱浪,不僅將各家科技巨頭和獨角獸們推向風口浪尖,在它背後的神經網路也被紛紛熱議。但實際上,除了神經網路之外,知識圖譜在AI的發展歷程中也被寄予厚望。自然語言處理是如何伴隨人工智慧各個流派不斷發展、沉澱,直至爆發的?本文作者將帶來他的思考。
作者 | 王文廣
出品 |新程式設計師
自ChatGPT推出以來,不僅業內津津樂道並紛紛讚歎自然語言處理(Natural Language Processing, NLP)大模型的魔力,更有探討通用人工智慧(Artificial general intelligence,AGI)的奇點來臨。有報道說Google CEO Sundar Pichai發出紅色警報(Red code)並促使了Google創始人佩奇與布林的迴歸,以避免受到顛覆性的影響[1][2][3]。同時,根據路透社的報道,ChatGPT發佈僅兩個月就有1億使用者參與狂歡,成為有史以來使用者增長最快的產品[4]。本文以ChatGPT為契機,介紹飛速發展的自然語言處理技術(如圖1所示)。

圖1 ChatGPT引發 Google「紅色警報」 [1][2][3]

從機器翻譯到ChatGPT:自然語言處理的進化
自然語言處理的歷史可以追溯到1949年,恰好與共和國同齡。但是由夏農的學生、數學家Warren Weaver發佈的有關機器翻譯的研討備忘錄被認為是自然語言處理的起點,比1956年達特茅斯會議提出「人工智慧(Artificial Intelligence,AI)」 的概念還略早一些。
二十世紀五、六十年代是自然語言處理發展的第一階段,致力於通過詞典、生成語法(圖2)和形式語言來研究自然語言,奠定了自然語言處理技術的基礎,並使得人們認識到了計算對於語言的重要意義。這個階段的代表性的成果有1954年自動翻譯(俄語到英語)的「Georgetown–IBM實驗」,諾姆·喬姆斯基(Noam Chomsky)於1955年提交的博士論文《變換分析(Transformational Analysis)》和1957年出版的著作《句法結構(Syntactic Structures)》等。

圖2 句法分析示例,來自《知識圖譜:認知智慧理論與實戰》圖4-5,P149[6]
在二十世紀六、七十年代,對話系統得到了發展,比如SHRDLU、LUNAR和ELIZA(圖3)。麻省理工學院的SHRDLU採用句法分析與「啟發式理解器(heuristic understander)」相結合的方法來理解語言並做出響應。LUNAR科學自然語言資訊系統(Lunar Sciences Natural Language Information System)則試圖通過英語對話的方式來幫助科學家們便捷地從阿帕網(ARPA net)獲取資訊,這倒像是當前爆火的ChatGPT雛形。ELIZA是那時對話系統的集大成者,集成了關鍵詞識別(圖4)、最小上下文挖掘、模式匹配和腳本編輯等功能[5]。

圖3 ELIZA對話系統,摘自維基百科ELIZA詞條

圖4 ELIZA系統中關鍵詞挖掘的流程圖[5]
隨著自然語言處理任務愈加複雜,人們認識到知識的缺乏會導致在複雜任務上難以為繼,由此知識驅動人工智慧逐漸在二十世紀七、八十年代興起。語義網路(Semantic Network)和本體(Ontology)是當時研究的熱點,其目的是將知識表示成機器能夠理解和使用的形式,並最終發展為現在的知識圖譜[6]。在這個階段,WordNet、CYC等大量本體庫被構建,基於本體和邏輯的自然語言處理系統是研究熱點。
進入二十世紀末二十一世紀初,人們認識到符號方法存在一些問題,比如試圖讓邏輯與知識覆蓋智慧的全部方面幾乎是不可完成的任務。統計自然語言處理(Statistical NLP)由此興起並逐漸成為語言建模的核心,其基本理念是將語言處理視為噪聲頻道資訊傳輸,並通過給出每個訊息的觀測輸出概率來表徵傳輸,從而進行語言建模。相比於符號方法,統計方法靈活性更強,在大量語料支撐下能獲得更優的效果。
在統計語言建模中,互資訊(Mutual Information)可以用於詞彙關係的研究,N元語法(N-Gram)模型是典型的語言模型之一,最大似然準則用於解決語言建模的稀疏問題,淺層神經網路也早早就應用於語言建模,隱馬爾可夫模型(Hidden Markov Model,HMM)和條件隨機場(Conditional Random Fields ,CRF)(圖5)是這個階段的扛把子。在搜尋引擎的推動下,統計自然語言處理在詞法分析、機器翻譯、序列標註和語音識別等任務中廣泛使用。

圖5 條件隨機場,來自《知識圖譜:認知智慧理論與實戰》圖3-8,P104[6]
特別地,從這個階段開始,中文自然語言處理興起,中國的機構緊緊跟上了人工智慧發展的潮流。由於中文分詞、詞性標註和句法分析等工作與英語等西方語言有著很大的不同,許多針對中文語言處理的方法被深入研究並在推動自然語言處理的發展中發揮著巨大作用。
2006年起,深度學習開始流行,並在人工智慧的各個細分領域「大殺四方」,獲得了非凡的成就,自然語言處理也開始使用深度學習的方法。隨著2013年Word2vec的出現,詞彙的稠密向量表示展示出強大的語義表示能力,為自然語言處理廣泛使用深度學習方法鋪平了道路。從現在來看,Word2vec也是現今預訓練大模型的「嬰兒」時期。
隨後,在循環神經網路(Recurrent Neural Network,RNN)、長短期記憶網路(Long Short-Term Memory,LSTM)、注意力機制、卷積神經網路(Convolutional Neural Network,CNN)、遞迴神經網路(Recursive Neural Tensor Network)等都被用於構建語言模型,並在句子分類、機器翻譯、情感分析、文字摘要、問答系統、實體抽取、關係抽取、事件分析等任務中取得了巨大的成功。
2017年發佈的變換器網路(Transformer)[7]極大地改變了人工智慧各細分領域所使用的方法,並發展成為今天幾乎所有人工智慧任務的基本模型。變換器網路基於自注意力(self-attention)機制,支持並行訓練模型,為大規模預訓練模型打下堅實的基礎。自此,自然語言處理開啟了一種新的正規化,並極大地推進了語言建模和語義理解,成就了今天爆火出圈的 ChatGPT,並讓人們能夠自信地開始探討通用人工智慧(Artificial General Intelligence,AGI)。

BERT & GPT的基礎:變換器網路
變換器網路是2017年Google在論文《Attention Is All You Need》[7]中提出的一種序列到序列(Sequence to sequence, seq2seq)的深度神經網路架構,其架構如圖6所示。
![圖6 變換器網路架構[7]](https://img5.vitomag.com/fd/63/fd63ebf7504775be02c7971c424ca62a06f1214f.jpg)
圖6 變換器網路架構[7]
該網路在當時並未引起轟動,僅僅如蝴蝶扇動了幾下翅膀。但隨著時間的推移卻引發了蝴蝶效應,最終掀起了自然語言處理乃至人工智慧的海嘯。限於篇幅,這裡簡要介紹變換器網路的重要特點。
變換器網路完全依賴於注意力機制,支持極大的並行化。如圖6所示,變換器網路由兩部分組成,左邊是編碼部門,有N個編碼器組成;右邊是解碼部分,由N個解碼器組成。編碼部分將輸入序列(文字)進行編碼,解碼部分以自迴歸的方法不斷解碼下一個詞元,最終完成從序列到序列的變換並輸出。
圖7展示了一個中文到英文翻譯的序列到序列的實例——將中文「《知識圖譜:認知智慧理論與實戰》是一本人工智慧必看書籍」翻譯為英文「Knowledge Graph: Theory and Practice of Cognitive Intelligence is a must read book on AI.」。翻譯也是最典型的序列到序列的語言任務,事實上也正是這個任務在1949年開啟了自然語言處理這門學科,同時在變換器網路的論文中,用的評測也正是翻譯任務。

圖7 用變換器網路進行中譯英的實例
變換器網路的最大創新是完全使用多頭自注意力機制(Multi-Head Self-Attention Mechanism,其架構如圖8所示)。變換器網路的編碼器和解碼器都是用了同樣的多頭自注意力結構,有所不同的是,編碼器中,自注意力是雙向的,而解碼器中,自注意力只允許關注輸出序列中較早的位置。如圖8的左邊圖所示,解碼器的自注意力層在自注意力計算的 softmax 步驟之前設置為-inf來遮蔽(mask)未來位置,即圖中標籤為「Mask(opt.)」的框所標識的。這也正是圖6的解碼器中被稱為「Masked Multi-Head Attention」的原由。
![圖8 多頭自注意力機制[7]](https://img5.vitomag.com/f9/48/f948712d5cffc96d6ab6ec344cd1490ad0376671.jpg)
圖8 多頭自注意力機制[7]
多頭自注意力機制的核心就是自注意力。圖9是自注意力的一個實例,直觀地理解,自注意力就是模型在處理當前輸入序列的某個詞元與該序列其他詞元的語義相關性。不同的「頭」關注了不同維度/方面的語義。圖9示例了「今」字與同一輸入序列(句子)的其他字的語義相關性,不同顏色表示了不同的「頭」( 頂部色塊表示了不同的「頭」的標識),而顏色的深淺表示了語義相關性的強弱。在這個例子中,「今」字在有多個「注意力頭」最關注了「古」字,而在另一個「注意力頭」則最關注「魂」字,還有兩個「注意力頭」最關注了「的」字。

圖9 自注意力實例,《知識圖譜:認知智慧理論與實戰》圖3-15(P124)[6]
值得一提的是,變換器網路是近5年自然語言處理乃至全部人工智慧高速發展的最大功臣!近年來叱吒風雲的BERT就是以變換器網路的編碼器為基礎的,而 GPT 則是以其解碼器為基礎的。

NLP奮發五載
由於變換器網路的出現,大語言模型的興起,以及多種機器學習正規化的融合,近五年自然語言處理有了極大的發展。從現在來看,這個起點當屬2018年ELMo、GPT和BERT的出現。特別是,BERT通過巨量語料所學習出來的大規模預訓練模型,不僅學會了上下文資訊,還學會了語法、語義和語用等,乃至很好地學會部分領域知識。BERT在預訓練模型之上,針對特定任務進行微調訓練,在十多個自然語言處理任務的評測中遙遙領先,並在機器閱讀理解頂級水平測試SQuAD1.1中表現出驚人成績,兩個衡量指標上都首次並全面超越人類。
由於BERT的驚人表現,自然語言處理由此開啟了新時代,在此後的五年中奮發進取,不斷增強語言理解與生成的能力,最終出現了去年年底爆火出圈的ChatGPT,並引發了通用人工智慧即將到來的激烈探討。下面從三個維度來介紹自然語言處理的奮進五年——大模型的突飛猛進,演算法的融會貫通,以及應用的百花齊放。
大模型的突飛猛進
圖10展示了自2018年至今具有一定影響力的大模型,其中橫軸是模型發佈時間(論文發表時間或模型發佈時間的較早者),縱軸是模型參數的數量(單位是百萬,座標軸是底為10的對數座標軸),名字為黑色字型的是國外機構發佈的大模型,紅色字型的是國內機構發佈的大模型。從圖10可以看到,這五年,預訓練大語言模型的參數規模從1億到1萬億的「野蠻」增長,增長速度幾乎是每年翻10倍。這個每年翻10倍的模型增長規律,被稱為「智慧時代的摩爾定律」。深入分析大模型的情況,總結有兩方面內容:

圖10 自然語言大模型的奮進五載
機構方面,Google和Deepmind發佈了BERT、T5、Gopher、PaLM、GaLM、Switch等等大模型,模型的參數規模從1億增長到1萬億;OpenAI和微軟則發佈了GPT、GPT-2、GPT-3、InstructGPT、Turing-NLG 和 M-Turing-NLG等等大模型,模型的參數規模從1億增長到5000億;百度發佈了文心(ERNIE)系列,包括 ERNIE,ERNIE2.0,ERNIE3.0,ERNIE 3.0-Titan,參數規模從3億增長到2600億。總體來說,隨著模型的增長,有能力訓練和發佈大模型的在減少。除了上面提到的幾家之外,其他的還有晶片大廠Nvidia靠充足的算力,大力出奇跡,國內的智源研究院和鵬程實驗室等機構也發佈了悟道、盤古等大模型,表現不俗。
大模型成本高昂,時間成本和經濟成本都巨大。以模型參數為1750億的GPT-3為例,用於訓練模型的原始語料文字超過100TB(壓縮包為45TB),包含了網頁、書籍、英文維基百科等。原始語料文字經過處理後,形成了超過5000億個詞元(西方語言的詞,中文的字等)的訓練語料。GPT-3模型的訓練和評估採用的算力是微軟和OpenAI一起打造的超級計算集群,集群有28.5萬核CPU,1萬個V100 GPU,以及400Gbps的網路頻寬。建造這個超級計算集群的費用超過20億元。如果租用微軟或其他雲廠商的集群來訓練GPT-3,訓練一次GPT-3需要耗費估計從280萬到540萬美元不等(價格因不同雲廠商而有所不同)。因訓練花費不菲,在 GPT-3的論文《Language Models are Few-Shot Learners》中提到「發現了bug但由於訓練費用問題而沒有重新訓練模型(Unfortunately, a bug in the filtering caused us to ignore some overlaps, and due to the cost of training it was not feasible to retrain the model.)」[11]。
演算法的融會貫通
自然語言處理在這五年的高速發展,除了模型越來越大,訓練語料越來越多之外,核心還是多種不同類型的人工智慧技術的高速發展,以及在自然語言處理領域將對這些技術的融會貫通。這些人工智慧技術包括但不限於語言模型、對話系統(Conversational AI)、思維鏈(Chain of Thoughts)、強化學習(Reinforcement Learning)和人類反饋強化學習 (Reinforcement Learning from Human Feedback,RLHF)、情境學習(In-context learning)、無監督學習(Unsupervised Learning)等等。除此之外,算力的增長、大資料處理技術的發展也提供了必不可少的支撐。
語言模型
這裡簡要介紹三類代表性的語言模型,分別為BERT所使用的掩碼語言模型、GPT系列所使用的自迴歸語言模型以及ERNIE系列所使用的引入了知識圖譜等專家知識的語言模型。
掩碼語言模型(Masked language model,MLM)是一種雙向語言模型[6][8],模擬了人類對語言的認知的雙向語言模型。一個例子是,人們快速讀閱時,些許的字文錯誤並不會影響理解,這是由於人們會自動補全。掩碼語言模型正是模擬了這一特點,比如對於「一枝紅杏出牆來」這句話,將其一部分掩蓋住後,原句變為「一枝紅⬛出牆來」,如何判斷「⬛」掩蓋的部分?人們能夠自然地意識到「⬛」掩蓋的是「杏」。而掩碼語言模型則是為了讓模型能夠像人一樣「猜出」被掩蓋的部分。BERT通過變換器網路的編碼器來實現掩碼語言模型。同時,如圖11所示,BERT使用了多工學習方法來從大規模語料中訓練出模型,並在具體任務中進行微調(Fine-Tuning)。

圖11 BERT的預訓練和具體任務的微調示意圖[8]
與BERT不一樣的是,GPT系列則通過變換器網路的解碼器實現了自迴歸語言模型(Autoregressive language model)[9],採用多工訓練的方法訓練模型,模型如圖12所示。自迴歸在時間序列分析中非常常見,比如ARMA,GARCH等都是典型的自迴歸模型。在語言模型中,自迴歸模型每次都是根據給定的上下文從一組詞元中預測下一個詞元,並且限定了一個方向(通常是正向,即在一個句子中從前往後依次猜下一個字/詞)。同樣以「一枝紅杏出牆來」為例,自迴歸語言模型中,給定「一枝紅」的上下文來預測下一個 「杏」字,緊接著給定「一枝紅杏」來預測下一個「出」字,然後是根據給定的「一枝紅杏出」來預測「牆」字,如此循環,直到完成整個序列的預測並輸出。有多種不同的方案來選擇模型預測的輸出標記序列,例如貪婪解碼、集束搜尋(Beam Search)、Top-K取樣、核取樣(Nucleus Sampling)、溫度取樣(Temperature Sampling)等。除了 GPT 系列之外,Transformer-XL、XLNet等大模型也採用了自迴歸語言模型。

圖12 GPT模型架構及多工訓練示意圖[9]
ERNIE在採用了 BERT 類似的模型架構之上,加入了知識圖譜[6],使得模型能夠用先驗知識來更好地理解語義,其架構如圖13所示[10]。還是以「一枝紅杏出牆來」為例,ERNIE能夠更好地理解「紅杏」,並知道它是一種「植物」。也因此,相比於BERT和GPT,ERNIE能夠在更小的模型下獲得相對更好的效果。尤其值得一提的是,這點在中文場景中更加明顯。

圖13 ERNIE模型架構及嵌入知識圖譜的示意圖[10]
情境學習
情境學習(In-context Learning)是隨著GPT-3而流行起來。在GPT-3中,通過給出僅僅幾個示例就能夠很好地完成許多自然語言處理任務的方法,被稱為情境學習。圖14是一個直觀的例子,使用了ChatGPT的情境學習來實現情感分析任務。直觀地說,情境學習就是給模型一些包含任務輸入和輸出的提示,並在提示的末尾附加一個用於預測的輸入,模型根據提示和預測輸入來預測任務的結果並輸出。也因此,情境學習有時候也被稱為基於提示的學習(Prompt-based learning)。

圖14 情境學習實例,使用了ChatGPT
從圖15可以看出,情境學習的預測結果在大模型的情況下效果表現得非常好,但在小模型的情況下表現糟糕。簡單地說,大模型使得情境學習變得有用。這是由於情境學習依賴於語言模型所學習到的概念語義和隱含的貝葉斯推理,而這依賴於大規模預訓練模型對潛在概念的學習,從文件級語料學習了長距離依賴並保持長距離的連貫性、思維鏈和複雜推理等等。也因此,情境學習在大模型之前罕見,可謂連實驗室的玩具都談不上。而在大模型的支撐下,在許多自然語言處理任務的基準測試(如LAMBADA文字理解測試集和TriviaQA問答測試集)中,情境學習相比其他模型也非常具有競爭力。
![圖15 情境學習效果曲線[11]](https://img5.vitomag.com/26/ab/26abe9fe7e695d144c0382a313e2342b4ee081cf.jpg)
圖15 情境學習效果曲線[11]
從應用來看,情境學習最為津津樂道的兩個特點是:
情境學習能夠有效地使模型即時適應輸入分佈與訓練分佈有顯著差異的新任務,這相當於在推理期間通過「學習」範例來實現對特定任務的學習,進而允許使用者通過新的用例快速構建模型,而不需要為每個任務進行微調訓練。
構建於大語言模型之上的情境學習通常只需要很少的提示示例即可正常工作,這對於非自然語言處理和人工智慧領域的專家來說非常直觀且有用。
這兩個特點使得人們能夠使用一個模型來實現不同的任務,為類似ChatGPT這樣的準AGI提供了技術基礎。也正因此,人工智慧領域唸叨多年的通用人工智慧終於露出了一絲曙光。
人類反饋強化學習
人類反饋強化學習是一種人工智慧模型在進行預測(推斷)的過程中通過人的反饋來實現模型學習,使得模型輸出與人類的意圖和偏好保持一致,並在連續的反饋循環中持續最佳化,進而產生更好的結果。
事實上,人工智慧發展過程中,模型訓練階段一直都有人的互動,這也被稱為人在圈內(Human-in-the-loop, HITL),但預測階段則更多的是無人參與,即人在圈外(Human-out-of-the-loop, HOOTL)。在這五年的奮進中,通過人類反饋強化學習使得自然語言處理在推斷階段能夠從人的反饋中學習。這在自然語言處理領域是一個新創舉,可謂人與模型手拉手,共建美好新AI。
從技術上看,人類反饋強化學習是強化學習的一種,適用於那些難以定義明確的用於最佳化模型損失函數,但卻容易判斷模型預測效果好壞的場景,即評估行為比生成行為更容易。在強化學習的思想中,智慧體(Agent)通過與它所處環境的互動中進行學習,常見在各類遊戲AI中。比如,鼎鼎大名的 AlphaGo,在2017年烏鎮網際網路大會上打敗了圍棋世界冠軍柯潔,其核心技術就是強化學習。
人類反饋強化學習並非從自然語言處理開始的,比如2017年OpenAI和DeepMind合作探索人類反饋強化學習系統與真實世界是否能夠有效地互動,實驗的場景是Atari遊戲、模擬機器人運動等。這些成果隨後被OpenAI和DeepMind應用到大語言模型上,通過人類反饋來最佳化語言模型,進而使得模型的輸出與預期目標趨於一致,比如InstructionGPT、FLAN等。這些成果表明,加入人類反饋強化學習使得生成文字的質量明顯優於未使用人類反饋強化學習的基線,同時能更好地泛化到新領域。
圖16是人類反饋強化學習的框架圖,獎勵預測器是學習出來的,這點與傳統強化學習有所不同。在傳統強化學習中,獎勵函數是人工設定的。在InstructionGPT中,強化學習演算法使用了近端策略最佳化(Proximal Policy Optimization,PPO)來最佳化GPT-3生成摘要的策略。

圖16 人類反饋強化學習框架圖
應用的百花齊放
近年來,所有自然語言處理的任務都有了長足進步,效果飆升,許多工都超越了人類專家的水平。在史丹佛問答資料集2.0(SQuAD2.0)評測中,最新的模型EM 分數和F1分數分別為90.939和93.214,相比人類專家86.831和89.452高了4.73%和4.21%。在史丹佛對話問答CoQA資料集的評測中,最佳模型的分數達到90.7,相比人類專家的分數88.8,高出了2%。在機器翻譯中,自2017年至今,WMT2014英譯德評測集的 BLEU分數從26增長到35以上,德譯英則從23增長到35以上。在其他諸如文字分類、文件分類、對話生成、資料到文字(Data-to-Text)、看圖說話(Visual Storytelling)、視覺問答、情感分析、實體抽取、關係抽取、事件抽取、自動摘要、OCR等等任務中的效果增長都非常顯著。
在這五年中,行業應用也愈加廣泛。金融、醫療、司法、製造、營銷、媒體等各行各業都是使用自然語言處理技術提升效率,降低風險。基於自然語言處理最新技術的綜合性平臺智慧文件處理系統(Intelligence Document Process System,IDPS)開始流行,比如圖17所示的達觀資料IDPS。中國資訊通訊研究院(信通院)等機構組織了標準編制和評測,萬千企業開始使用智慧文件處理系統進行文件智慧比對、關鍵要素抽取、銀行流水識別、風險審核、文件寫作等,實現了諸多腦力勞動的智慧化。

圖17 達觀智慧文件處理系統
同時,依託自然語言處理進行實體、關係、事件等知識的抽取,構建出領域專業知識圖譜,並以語義檢索、智慧問答、歸因分析、知識推理等為各行提供了豐富的應用,比如賦能智慧製造的故障排查,金融行業的智慧投研和智慧投顧,政府和企業的輿情分析,營銷和售後的智慧客服和智慧運營,媒體的資訊分類、自動摘要和事實校驗等。
隨著近五年自然語言處理技術的發展,許多原來無法完善服務的場景也有了切實可見的應用,影響著三百六十行的億萬工作者。由OpenAI的Codex大語言模型提供支撐的GitHub CoPilot為數千萬的程式設計師提供效率工具。最新的ChatGPT參與沃頓商學院的工商管理碩士課程的期末考試並獲得了B檔成績,展現出了非凡的能力[12]。同樣的場景出現在許多大學中,比如北密歇根大學有學生使用 ChatGPT寫課程論文獲得了全班最高分。更有甚者,ChatGPT已經成為了許多科學論文或出版書籍的共同作者,比如ChatGPT名列《Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models》這篇12個作者中的第三位[13],Gautier Marti則在其出版的書籍《From Data to Trade: A Machine Learning Approach to Quantitative Trading》中將ChatGPT列為共同作者。

AGI初現曙光
人類對智慧化的追求可謂孜孜不倦,自遠古時期對智慧化的想象,比如三國演義中諸葛亮的木牛流馬,到每一次人工智慧蓬勃發展時期,都會對通用人工智慧進行想象和期待。但直至去年年底ChatGPT出現之前,所有的人工智慧產品都侷限於某一特定領域。比如:
用於實體抽取的系統,無法用於對話。
用於問答的系統可以在SQuAD2.0獲得高分,但在沒有進行微調等重新訓練模型的情況下,在命名實體識別或翻譯的評測中就表現得很差勁。
AlphaZero在圍棋上打遍天下無敵手,但沒法用來做其他事情,比如臉部辨識或者事件分析等。
AlphaFold2能夠解決蛋白質摺疊這種專業大學教授都難以搞定的超級難的問題,但面對幼稚園小朋友也能很好地解決的「12+23」等算術問題則顯得無能為力。
有一些試圖以通用智慧助手形式提供的人工智慧產品則經常被戲稱為「人工智障」。
當我們細數過去種種人工智慧產品的優勢和不足的時候,就容易看出 ChatGPT 所展現出來的「超能力」。圖18是ChatGPT超能力的一個實例展示,不僅能夠流暢地進行對話,還能夠在這個過程中完成多項自然語言處理任務,包括基於提示的情感分析、編寫程式碼、翻譯、報告撰寫和摘要等。更進一步的,論文《ChatGPT: The End of Online Exam Integrity?》認為,ChatGPT能夠展現批判性思維能力,並以最少的輸入生成高度逼真的文字,潛在威脅了線上考試的誠信。其本質是:ChatGPT展現出了超強的能力,這個能力在前面提過的ChatGP能夠通過沃頓商學院的工商管理碩士課程也展現過。這種「超能力」恰如人類的大腦一樣,能在許多領域進行推理,並以接近或超越人類的水平完成多項認知任務。這正是人們所說的通用人工智慧(Artificial General Intelligence,AGI)。

圖18 ChatGPT多才多藝的超能力實例
支撐起ChatGPT 超能力的,正是自然語言處理技術奮進五載的大綜合。從技術角度,就是在無監督大規模預訓練語言模型的基礎上,使用標註語料進行有監督的訓練。在此基礎之上,通過訓練一個獎勵預測模型,以及使用近端策略最佳化來訓練強化學習策略。並在面向使用者的應用中使用了人類反饋強化學習技術來實現對話理解和文字生成。圖19展示了ChatGPT所使用的方法,可以看出,ChatGPT 涵蓋了機器學習的三大正規化——有監督學習、無監督學習和強化學習。這也許和人類大腦的行為類似:
無監督學習——嬰兒期人類大腦,遺傳和3歲以下認知世界的模式;
有監督學習——從幼稚園開始不斷學習各類技能和知識;
強化學習——從現實環境的反饋中學習。
圖19 訓練ChatGPT的過程示意圖[14]
正是這些技術的總和所展現出的強大能力,ChatGPT 為通用人工智慧帶來了曙光。許多業內大佬也紛紛為此站臺,比如:
微軟聯合創始人比爾·蓋茲在2023年1月11日的Reddit AMA(Ask Me Anything)的問答帖中對一些熱門科技概念發表了看法,他表示自己不太看好Web3和元宇宙,但認為人工智慧是「革命性」的,對OpenAI的ChatGPT印象深刻[15]。微軟也準備再向OpenAI投資100億美元,並表示旗下全部產品都接入ChatGPT以提供智慧服務。
此前力推元宇宙的Meta的態度也有所改變,祖克柏在2022年度報告投資者電話會議上表示「我們的目標是成為生成式人工智慧的領導者(Our Goal is to be Leader in Generative AI)」[16]。面對投資者對元宇宙是否被拋棄的疑問,祖克柏的回答是「今天專注於人工智慧,長期則是元宇宙(AI today and over the longer term the metaverse)」(想想經濟學家凱恩斯那句名言「長期來看,我們都死了」吧)。
Google創始人迴歸並全力支持類似 ChatGPT產品的開發,同時向Anthropic投資3億美元。Anthropic由OpenAI的多名資深研究人員創立,其產品與OpenAI的類似,如Claude(ChatGPT)和(GPT-3)。
許多學者認為,通用人工智慧到來的時間會加速,也許,2035年就是一個通用人工智慧的「奇點」時刻。
也許有人認為誇大其詞或危言聳聽。畢竟,ChatGPT也僅僅展現了語言方面的能力,對其他諸如視覺、語音等完全不涉及。而即使在語言方面,ChatGPT表現弱智的地方也很多,圖20就是一個例子(這個問題流傳最廣的回答是:賈母),深度學習的代表性人物Yann LeCun也激烈批評大語言模型的問題「人們嚴厲批評大語言模型是因為它的胡說八道,ChatGPT 做了(與語言大模型)同樣的事(People crucified it because it could generate nonsense.ChatGPT does the same thing.)」。事實上,這個表現有點像幼稚園的小朋友的「童言無忌」,而這不也正是「智慧」的表現麼?而解決這個問題有現成的人工智慧方法——知識圖譜[6]等符號人工智慧方法和基於知識的人工智慧方法。這些方法在這幾年也發展迅速。一旦ChatGPT擁有一個知識圖譜來支撐「常識」,其下限將極大地提升[17],「童言無忌」變得成熟,那麼語言領域的通用人工智慧可謂來臨。

圖20 ChatGPT關於「賈寶玉娶老婆」的例子
進一步的,跳出自然語言處理,從更廣泛的人工智慧視角來看,這幾年的進展也非常大。比如通過文字提示生成視訊的擴散模型(Diffusion Model,DM),在圖像生成上提升了視覺保真度,同樣引發了視覺領域的爆火出圈;語音合成方面,VALL-E模型支持通過語音提示,合成符合輸入語音音色和情緒的逼真聲音。特別地,這些不同領域的人工智慧,包括視覺、圖像處理、語音識別、語音合成、知識圖譜、時間序列分析等等,也全部都在採用變換器網路來實現[18]。這使得ChatGPT或類似系統加入語音、視覺等變得容易,進而構建出跨模態的,多才多藝的通用人工智慧。

結語
可以想象,未來五年到十年,融合語言、視覺和語音等多模態的超大模型將極大地增強推理和生成的能力,同時通過超大規模知識圖譜和知識計算引擎融入人類的先驗知識,極大提升人工智慧推理決策的準確性。這樣的人工智慧系統既能夠像人一樣適應現實世界的不同模態的絕大多數任務,完成任務的水平甚至超越絕大多數的普通人,又可以在各種富有想象力和創造性的任務上有效地輔助人類。
這樣的系統正是人們想象和期待了數千年的智慧系統,而這也會被稱為真正的通用人工智慧。進一步,隨著人形機器人、模擬人類的外皮膚合成技術等等各類技術的發展,這些技術互相融合,科學幻想中的超人工智慧的來臨也將成為現實。而在通用人工智慧如燦爛陽光灑滿每一個角落時,驀然回顧,會發現AGI的第一道曙光是2022年底的ChatGPT。正所謂「虎越雄關,NLP奮發五載;兔臨春境,AGI初現曙光。」
參考文獻
[1] ChatGPT將代替搜尋引擎?Google內部發紅色警報. 澎湃新聞. https://www.thepaper.cn/newsDetail_forward_21282873
[2] How ChatGPT Suddenly Became Google’s Code Red, Prompting Return Of Page And Brin. Forbes. https://www.forbes.com/sites/davidphelan/2023/01/23/how-chatgpt-suddenly-became-googles-code-red-prompting-return-of-page-and-brin/. 2023.
[3] With Bing and ChatGPT, Google is about to face competition in search for the first time in 20 years. Insider. https://www.businessinsider.com/bing-chatgpt-google-faces-first-real-competition-in-20-years-2023-1
[4] ChatGPT sets record for fastest-growing user base – analyst note。Reuters. https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-user-base-analyst-note-2023-02-01/. 2023.
[5] Joseph Weizenbaum. ELIZA–A Computer Program for the Study of Natural Language Communication Between Man and Machine.[J]// Communications of the ACM. Vol9. P36–45.
[6] 王文廣. 知識圖譜:認知智慧理論與實戰[M] //電子工業出版社, 2022
[7] Ashish Vaswani, Noam Shazeer, Niki Parmar et al. Attention is all you need.[C] //In advances in neural information processing systems. 2017. P5998-6008
[8] Jacob Devlin, Ming-Wei Chang, Kenton Lee et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.[C] // In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019. P4171–4186.
[9] Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever. Improving language understanding with unsupervised learning. //OpenAI Technical Report. 2018.
[10] Yu Sun, Shuohuan Wang, Shikun Feng et al. ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation. arXiv:2107.02137. 2021.
[11] Tom Brown, Benjamin Mann, Nick Ryder et al. Language Models are Few-Shot Learners.[C] // In Advances in Neural Information Processing Systems 33 (NeurIPS 2020). 2020. P1877—1901
[12] ChatGPT passes MBA exam given by a Wharton professor. NBC News. https://www.nbcnews.com/tech/tech-news/chatgpt-passes-mba-exam-wharton-professor-rcna67036. 2023.
[13] Tiffany Kung, Morgan Cheatham, ChatGPT et al. Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models. doi:10.1101/2022.12.19.22283643. 2022.
[14] ChatGPT: Optimizing Language Models for Dialogue. OpenAI. https://openai.com/blog/chatgpt/. 2022
[15] 比爾·蓋茲看好 AI,而非 Web3 和元宇宙. 新浪網. http://vr.sina.com.cn/news/hot/2023-01-13/doc-imxzzfmr4911664.shtml. 2023
[16] Meta Platforms (NASDAQ: META) CEO Mark Zuckerberg: 「Our Goal is to be Leader in Generative AI」. Wall Street Reporter. https://www.wallstreetreporter.com/2023/02/02/meta-platforms-nasdaq-meta-q4-2022-earnings-call/. 2023.
[17] Wolfram|Alpha as the Way to Bring Computational Knowledge Superpowers to ChatGPT. StephenWolfram. https://writings.stephenwolfram.com/2023/01/wolframalpha-as-the-way-to-bring-computational-knowledge-superpowers-to-chatgpt/. 2023.
[18] 學習ChatGPT和擴散模型Diffusion的基礎架構Transformer,看完這些論文就夠了.走向未來.https://mp.weixin.qq.com/s/3bOFfODR7rpnyzrpocHlfQ. 2023.
本文作者

王文廣,達觀資料副總裁,高級工程師,自然語言處理和知識圖譜著名專家。《知識圖譜:認知智慧理論與實戰》作者,人工智慧標準編制專家,專注於知識圖譜與認知智慧、自然語言處理、圖像與語音處理、圖分析等人工智慧方向。曾獲得多個國際國家級、省部級、地市級獎項,擁有數十項人工智慧領域的國家發明專利和會議、期刊學術論文。