ChatGPT的狂歡背後:短板猶在,啟發甚多,2023有這些事可以做……

ChatGPT 的強大能力是與生俱來的嗎?它有哪些短板?未來它會取代搜尋引擎嗎?它的出現給我們的 AI 研究帶來了哪些啟發?針對這些問題,幾位 AI 研究者展開了深入對談。

2022 年的最後一個月,OpenAI 用一個爆款對話機器人 ——ChatGPT 回應了人們一整年的期待,儘管它並不是大家期盼已久的 GPT-4。

用過 ChatGPT 的人都能體會到,它是一個真正的「六邊形戰士」:不僅能拿來聊天、搜尋、做翻譯,還能寫故事、寫程式碼、debug,甚至開發小遊戲、參加美國高考…… 有人戲稱,從此以後人工智慧模型只有兩類 —— ChatGPT 和其他。

圖源:https://twitter.com/Tisoga/status/1599347662888882177

由於能力過於驚豔,ChatGPT 僅上線 5 天就吸引了 100 萬使用者。很多人大膽預測,照這個趨勢發展下去,ChatGPT 很快就能取代 Google 等搜尋引擎和 Stack Overflow 等程式設計問答社區了。

圖源:https://twitter.com/whoiskatrin/status/1600421531212865536

不過, ChatGPT 生成的答案有很多是錯的,而且不仔細看都看不出來,這會造成問題回答魚目混珠的情況。這種「很強大但也很容易出錯」的屬性給了外界很大的討論空間,大家都想知道:

  • ChatGPT 的這種強大能力是哪裡來的?
  • ChatGPT 還有哪些短板?
  • 未來它會取代搜尋引擎嗎?
  • 它的出現給我們的 AI 研究帶來了哪些啟發?

在小紅書技術團隊舉辦的第六期「REDtech 來了」技術直播中,NLP 領域專家、加州大學聖巴巴拉分校助理教授李磊與小紅書技術副總裁張雷以及小紅書社區部多媒體智慧演算法負責人張德兵展開了對談,就 ChatGPT 的熱門問題進行了交流和解答。

李磊,本科畢業於上海交通大學計算機系(ACM 班),博士畢業於卡耐基梅隆大學計算機系。曾先後任加州大學柏克萊分校博士後研究員、百度美國深度學習實驗室少帥科學家、字節跳動人工智慧實驗室高級總監。

2017 年,李磊在 AI 寫作機器人 Xiaomingbot 上所做的工作獲得了吳文俊人工智慧技術發明二等獎。Xiaomingbot 也具有強大的內容理解和文字創作能力,能流暢地進行體育賽事的播報和財經新聞的寫作。

李磊的主要研究方向是機器學習、資料探勘和自然語言處理。在機器學習、資料探勘和自然語言處理領域於國際頂級學術會議發表論文 100 餘篇,擁有二十餘項技術發明專利。曾獲得過 2012 年美國計算機學會 SIGKDD 最佳博士論文第二名、2017 年 CCF 傑出演講者、2019 年 CCF 青竹獎、以及 2021 ACL 最佳論文獎。

張雷,小紅書技術副總裁,畢業於上海交通大學,曾擔任歡聚時代技術副總裁和百度鳳巢首席架構師,負責百度搜尋廣告 CTR 機器學習演算法工作。曾任 IBM 深度問答(DeepQA)項目中國技術負責人。

張德兵,小紅書社區部多媒體智慧演算法負責人,曾任格靈深瞳首席科學家,快手多模態智慧創作負責人,在技術研究和業務落地方向都具有豐富的經驗,帶領團隊獲得包括國際權威臉部辨識競賽 FRVT 世界冠軍在內的多項學術競賽冠軍,並推動 CV、多模態等技術在安防、零售、體育等 TO B 場景和短視訊、廣告等 C 端場景的多項業務落地。

三位嘉賓的討論既關注到了 ChatGPT 當下的能力與問題,同時也就未來的趨勢和前景進行了展望。在下文中,我們對交流的內容進行了梳理和總結。

OpenAI 的聯合創始人 Greg Brockman 最近發Twitter表示,2023 年將使 2022 年看起來是 AI 進步和採用的沉悶之年。圖源:https://twitter.com/gdb/status/1609244547460255744

ChatGPT 的強大能力來自於哪兒?

和試用 ChatGPT 的很多人一樣,三位嘉賓也都對 ChatGPT 的強大能力印象深刻。

其中,張德兵舉了一個讓 ChatGPT 扮演 Linux Terminal 的例子:告訴 ChatGPT 大概的機器配置,然後在此基礎上讓它執行一些指令,結果發現,ChatGPT 能夠記住很長的操作歷史,前後邏輯關係非常一致(比如你往一個檔案裡面寫入幾行字符,之後讓它顯示這個檔案裡面到底被寫入了哪些字符,它都能顯示出來)。

DeepMind 研究者 Jonas Degrave 讓 ChatGPT 扮演 Linux Terminal 的例子。圖源:https://www.engraved.blog/building-a-virtual-machine-inside/

這一結果讓張德兵等人不禁懷疑,ChatGPT 是不是自己在後臺開了一個 terminal 欺騙使用者?於是他們進行了一些測試:讓 ChatGPT 執行一些複雜度非常高的指令(比如兩重 for 循環,每一個 for 循環都有 10 億次),如果 ChatGPT 真的開了一個 terminal,它就會卡一段時間。結果出乎意料:ChatGPT 很快就跳過了這個過程,顯示出了這個命令之後的下一個結果。這讓張德兵等人意識到,ChatGPT 確實大概理解了整個 demo 的邏輯,它是有一定的「思考」能力的。

那麼,這種強大的能力是從哪裡來的呢?張雷提出了兩種假設。一種假設認為,這種能力本身就是內建在大模型當中的,只是我們之前沒有恰當地釋放它;另一種假設認為,大模型的內建能力其實沒有那麼強,需要我們藉助人類力量對它做出一些調整

張德兵和李磊都贊同第一種假設。因為,我們可以直觀地看到,訓練和微調大模型所需的資料量存在著幾個數量級的差異,在 GPT-3 及其之後的模型所用到的「預訓練 + 提示(Prompting)」正規化中,這種資料量的差異就更明顯了。而且,它們所用到的 in-context learning 甚至不需要更新模型參數,僅需要把少量標註樣本放在輸入文字的上下文中即可誘導模型輸出答案。這似乎可以說明,ChatGPT 的強大能力確實是內生的。

傳統 fine-tune 方法與 GPT-3 的 in-context learning 方法對比。

此外,ChatGPT 的強大還依賴於一項秘密武器 —— 一種名為 RLHF(人類反饋強化學習)的訓練方法

根據 OpenAI 官方公佈的資料,這種訓練方法可以分為三個階段 [1]:

  1. 冷啟動階段的監督策略模型:從測試使用者提交的 prompt 中隨機抽取一批,靠專業的標註人員,給出指定 prompt 的高質量答案,然後用這些人工標註好的 < prompt,answer > 資料來 Fine-tune GPT 3.5 模型,從而讓 GPT 3.5 初步具備理解指令中蘊含的意圖的能力;
  2. 訓練回報模型(Reward Model,RM):隨機抽樣一批使用者提交的 prompt,然後使用第一階段 Fine-tune 好的冷啟動模型為每個 prompt 生成 K 個不同的回答,再讓標註人員對 K 個結果進行排序,以此作為訓練資料,通過 pair-wise learning to rank 模式來訓練回報模型;
  3. 採用強化學習來增強預訓練模型的能力:利用上一階段學好的 RM 模型,靠 RM 打分結果來更新預訓練模型參數。

這三個階段的其中兩個都用到了人工標註,也就是 RLHF 中所謂的「人類反饋」。

李磊表示,這一方法所產生的結果是出人意料的。在之前做機器翻譯研究的時候,他們通常會用 BLEU 分數(一種快速、便宜且語言獨立的自動機器翻譯評價方法,與人類判斷有很強的相關性)來指導模型,在模型較小的時候,這種方法效果顯著,但隨著模型越來越大,它的效果卻在不斷減弱。

因此,他們從中得到的經驗是:藉助反饋來訓練 GPT-3 這種超大模型理論上不會得到太大提升。但是,ChatGPT 的驚豔效果卻推翻了這一經驗。李磊認為,這是 ChatGPT 所帶給大家的震撼之處,提醒大家要改變研究觀念。

ChatGPT 有哪些短板?

不過,震撼之餘,三位嘉賓也指出了 ChatGPT 當前的一些短板。

首先,正如前面所說,它生成的答案有些還不夠準確,「一本正經胡說八道」的情況還會時不時地出現,而且不太擅長邏輯推理。

圖源:https://m.huxiu.com/article/735909.html

其次,像 ChatGPT 這樣的大模型要想實際應用,所需的部署成本是相當高的。而且目前沒有明顯的證據表明,把它們的規模縮小一兩個數量級,模型還能保持如此強大的能力。「如果只能在一個很大規模體量下才能維持這樣驚豔的能力,它離應用還比較遠,」張德兵說到。

最後,ChatGPT 在一些特定任務(比如翻譯)上可能並沒有達到 SOTA。雖然 ChatGPT 的 API 還沒有放出來,我們無法得知它在一些 benchmark 上的能力,但李磊的學生在測試 GPT-3 的過程中發現,雖然 GPT-3 能夠出色地完成翻譯任務,但它比現在單獨訓練的雙語模型還是要差一些(BLEU 分數差 5 到 10 個點)。據此,李磊推測,ChatGPT 在某些 benchmark 上並不見得會達到 SOTA,甚至可能和 SOTA 還有一些距離。

ChatGPT 能否取代 Google 等搜尋引擎?對 AI 研究有何啟發?

在關於 ChatGPT 的各種討論中,「能否取代搜尋引擎」這個話題可能是最火的一個。近日,《紐約時報》報道稱,ChatGPT 的火爆讓Google如臨大敵,他們擔心,如果大家都去用 ChatGPT 這樣的聊天機器人,就沒有人會點選帶有廣告的Google連結了(2021 年,Google廣告收入佔總收入的 81.4%)。在《紐約時報》獲得的一份備忘錄和錄音中,Google執行長 Sundar Pichai 一直在開會,以「確定Google的人工智慧戰略」,並「顛覆了公司內部眾多團隊的工作,以應對 ChatGPT 帶來的威脅」[2]。

對此,李磊認為,現在就說取代可能還有點早。首先,新技術的火爆和商業成功之間往往有很深的 gap,早些年,Google Glass 也說自己將成為新一代的互動方式,但至今未能兌現承諾。其次,ChatGPT 在一些問答任務上的表現確實比搜尋引擎好,但搜尋引擎所承載的需求並不侷限於這些任務。因此,他認為,我們應該根據 ChatGPT 本身的優勢去做產品,而不一定要瞄準現有的成熟產品去取代它,後者是一件很困難的事情。

很多 AI 研究者認為,ChatGPT 與搜尋引擎是可以放在一起工作的,二者並非取代與被取代的關係,就像最近熱門的「youChat」所展示的那樣。圖源:https://twitter.com/rasbt/status/1606661571459137539

張德兵也持有類似的看法,認為 ChatGPT 短期內替代搜尋引擎不太現實,畢竟它還有很多問題,比如不能訪問網際網路資源,會產生誤導資訊。此外,它的能力能否泛化到多模態的搜尋場景至今還不明晰。

但不可否認,ChatGPT 的出現確實給了 AI 研究人員很多啟發。

李磊指出,第一個值得注意的點是 in-context learning 的能力。在之前的很多研究中,大家都忽略瞭如何通過某種方式將既有模型的潛力挖掘出來(比如機器翻譯模型就只是用來做翻譯,而沒有嘗試給它一些提示看看能不能生成更好的翻譯),但 GPT-3、ChatGPT 做到了。因此李磊就在想,我們能不能把以往所有的模型都改成這種 in-context learning 的形式,給它們一些文字、圖像或者其他形式的提示,讓它們把能力都發揮出來,這將是一個非常有潛力的研究方向。

第二個值得注意的點是在 ChatGPT 中發揮重要作用的人類反饋。李磊提到,Google搜尋的成功實際上也很大程度上是因為它很容易獲得人類反饋(對於搜出的結果是否點選)。ChatGPT 通過請人寫答案、給模型生成的答案排序的方式獲得了很多人類反饋,但這種獲取方式比較昂貴(近來有一些研究已經指出了這一問題)。因此,李磊認為,未來我們要考慮的是如低成本、高效地獲取大量人類反饋。

圖源:https://twitter.com/yizhongwyz/status/1605382356054859777

小紅書「種草」新技術

對於在小紅書從事多模態智慧創作研究的張德兵來說,ChatGPT 也提供了很多啟發。

首先,該模型直觀地展示了 NLP 大模型相比小模型在複雜多輪對話、不同 query 的泛化性、思維鏈 (Chain of Thought) 等各個場景的大幅提升,且相關能力目前在小模型上是不具備的。

張德兵認為,NLP 大模型的這些相關能力或許也可以在跨模態生成中進行嘗試和驗證。目前,跨模態模型在模型規模上相比 GPT-3、ChatGPT 還有顯著的差距,且在跨模態場景中也有很多工作展示了 NLP 分支表達能力的提升,會對視覺生成結果的精細程度有很大幫助。如果跨模態模型的規模能夠進一步擴大,模型能力的「湧現」或許是一件值得期待的事情。

其次,像初代 GPT-3 一樣,現在多模態的生成結果在挑選的情況下往往能看到很不錯的驚豔結果,但生成可控性還有很大的提升空間。ChatGPT 似乎在一定程度上改善了這一問題,生成的東西更加符合人類心意。因此,張德兵指出,跨模態的生成或許可以參考 ChatGPT 的很多思路來進行嘗試,比如基於優質資料的微調、強化學習等等

這些研究成果將在小紅書的多項業務中得到應用,包括電商等場景的智慧客服,搜尋場景下對使用者 query、對使用者筆記更精確的理解,智慧創作場景下對使用者素材進行智慧配樂、文案生成、跨模態的轉換和生成創作等。在各個場景中,應用的深度和廣度也會隨著模型大小的壓縮、模型精度的持續提升而持續增強和擴展。

小紅書作為一家有 2 億月活使用者的 UGC 社區,隨著社區內容的豐富和多元,創造出了非常巨大的多模態資料集體量。在資訊檢索、資訊推薦、資訊理解,特別在智慧創作相關技術,以及底層多模態學習、統一表徵學習等方向上都積累了海量的真實資料,同時也為這些領域的實踐創新提供了獨特且廣闊的落地場景。

小紅書還是當下為數不多的依然保持強勁增長勢頭的網際網路產品之一,得益於圖文與視訊內容並重的產品形態,小紅書在多模態、音視訊、搜廣推領域將面臨和創造許多前沿的應用問題。這也吸引了大量技術人才的加入,小紅書技術團隊中,很多成員都擁有Google、Facebook、BAT 等海內外一線大廠的工作經歷。

這些技術挑戰也將給予技術人們在新的領域完整參與乃至扮演重要角色的機會。未來小紅書技術團隊所能提供的人才成長空間,比以往任何時候都更加廣闊,也正在等待更多優秀 AI 技術人才的加入。

同時,小紅書也非常重視與業界的交流。「REDtech 來了」就是由小紅書技術團隊打造的一檔面向行業前沿的技術直播欄目。今年以來,小紅書技術團隊已經與多模態、NLP、機器學習、推薦演算法等領域的領軍人物、專家學者展開深入的交流對話,力圖從學界科研與小紅書實戰經驗的雙重視角探索和討論有價值的技術問題。

參考連結:

[1] https://zhuanlan.zhihu.com/p/589533490

[2] https://www.cnet.com/tech/services-and-software/chatgpt-caused-code-red-at-google-report-says/

相關文章