2022年最值得關注的十篇論文,你都看了嗎?來捲來學習

年關將至,威斯康星大學助理教授 Sebastian Raschka 盤點了 2022 年他最看好的十大論文。

2022 年 1 月,擴散模型第一次吸引了我的眼球。當時我判斷到將會有某些大事發生,然而卻未曾預料到幾個月後會出現什麼:DALLE-2、Imagen、Stable Diffusion 以及其它許多模型。

對於大型語言模型來說,2022 也是非常重要的一年,最近面世的 ChatGPT 更是錦上添花,搶盡了風頭。

在回顧今年發表的十篇值得關注的論文前,我們可以先看看 12 月的 AI 要聞以及麥肯錫的一份人工智慧全景報告和行業調查綜述。

昨天,今天,明天

簡單來說,有兩篇論文引起了我的注意。

第一篇:視覺 Transformer(ViT)學習什麼?

論文連結:https://arxiv.org/pdf/2212.06727.pdf

關於視覺的探索顯示,ViT 學習的歸納偏置或特徵與卷積神經網路(CNN)學習的那些相似。例如,ViT 的 early layers 捕捉邊緣和紋理,而 later layers 學習更復雜的表徵以捕捉更廣泛的概念。

視覺 Transformer 從 early layers(左)到 deeper layers(右)的視覺化特徵過程。

關於生成建模,ViT 傾向於生成比 CNN 更高質量的背景,這就提出了 ViT 如何處理預測任務中的背景和前景的這一問題。當背景被消除時,ViT 似乎比 CNN 更善於預測目標類別,並且在前景被消除時它們也依然表現得更好。這表明,ViT 在依賴基於其存在的某些特徵時可能更具選擇性,或者說,總體更為魯棒。

第二篇:一種生成蛋白質的擴散模型

第二篇:一種生成蛋白質的擴散模型

論文連結:https://www.biorxiv.org/content/10.1101/2022.12.09.519842v1

在圖像生成領域,擴散模型已經帶來了突破性的性能,那麼生成蛋白質結構呢?研究人員開發了一種新的蛋白質合成擴散模型,稱為 RoseTTAFold Diffusion(RFDiffusion),這種蛋白質是從零開始創造的,而非來自於自然界中早已存在的蛋白質。

區分 de novo 蛋白質(在實驗室中使用沒有進化歷史的氨基酸序列合成)與諸如 AlphaFold、 AlphaFold2 等系統(使用現有氨基酸序列資料預測蛋白質 3D 結構)十分重要。但值得注意的是,AlphaFold2 曾被用於驗證 RDiffusion 研究的結果。

然後再談談最近的行業趨勢。今天,在產業中實際使用的技術是什麼?根據麥肯錫最近的 AI 全景報告 —— 並不是大型語言模型(Transformer)。特別說明,由於樣本規模和代表性的限制,該報告中的調查結果可能無法準確反映所有公司的經驗。

圖源:麥肯錫 2022 年全景報告

圖源:麥肯錫 2022 年全景報告。

自然語言處理在行業內一直受到追捧,但其受歡迎程度經常被計算機視覺應用超越。但現在,我們第一次看到計算機視覺和自然語言處理幾乎總是緊密聯繫在一起。

與此同時,自然語言文字理解(可能指文字分類)的受歡迎程度幾乎是自然語言「生成」的兩倍。請注意,自然語言生成的新聞通常會佔據熱點首頁:如 GPT-3、Galactica、ChatGPT 等。(文字理解可能包括摘要,摘要也是「生成」的,所以我假設它在這裡主要指的是類似分類的任務。那麼反過來說,類別(categories)也是可以重疊的。)

值得注意的是,Transformer 的排名墊底。

似乎許多公司尚未採用類似 BERT 的語言模型編碼器來進行文字理解和分類。相反,他們可能仍在使用基於詞袋模型( bag-of-word-based)的分類器或遞迴神經網路。同樣,類似 GPT 的模型解碼器似乎還沒有廣泛應用於語言生成,因而文字生成可能仍嚴重依賴循環神經網路和其他傳統方法。

基於下圖,我發現了一些有趣的其他見解:

基於下圖,我發現了一些有趣的其他見解
基於下圖,我發現了一些有趣的其他見解

圖源:2022 年麥肯錫 AI 全景報告。

  • 能夠利用「小資料」非常重要。當資料不可用時,生成合成資料的能力非常有用。
  • 儘快將資料集成到 AI 模型中的能力是在競爭中脫穎而出的關鍵。那麼,良好的軟體框架和基礎設備設置可能起到舉足輕重的作用。
  • 不幸的是,大多數高績效公司迄今仍不關心模型的可解釋性。

十大年度論文

以下將介紹我在 2022 年閱讀到的排名前三的論文。當然,今年發表的論文中還有很多其他主題是更令人興奮、永恆且具有影響力的。

2022 年,保持前三名的成績顯然具有挑戰性,因而下面還附了一個擴展列表,列出了我排名前十榜單中的其餘七篇論文

一、ConvNeXt

一、ConvNeXt

論文連結:https://arxiv.org/pdf/2201.03545.pdf

《A ConvNet for the 2020s》這篇論文我願稱之為全年最佳,因為作者們能夠設計出一種純卷積架構,其性能優於諸如 Swin Transformer 等流行的視覺 Transformer(當然,也優於在它之前出現的所有卷積神經網路)。

當卷積神經網路不僅應用於分類,還用於目標檢測和實例分割時,這種所提到的 ConvNeXt 架構很可能成為新的默認架構 —— 例如,它可以用作 Mask R-CNN 的骨幹網路(backbone)。

正如作者們在論文中所述,他們受到了當前視覺 Transformer 訓練機制以及 Swin Transformer 混合架構表明卷積層仍然相關的事實啟發。這均是因為純視覺 Transformer 架構缺乏有用的歸納偏置,例如平移同變性和參數共享(即卷積中的「滑動窗口」)。

為了開發 ConvNeXt,作者們從 ResNet-50 基礎架構出發,並採用了從現代 ViT 訓練機制中運用的架構修改和訓練機制。即使是賦予在卷積神經網路的背景,這些本來也沒什麼新奇。然而,新穎之處卻在於作者們有效地使用、分析和組合了這些技術。

他們採用了哪些技術?這可以列一個很長的清單,包括深度卷積、反向瓶頸層設計、AdamW、LayerNorm 技術等等,具體的彙總你可以在下圖中找到。此外,作者還使用了資料增強技術,如 Mixup、Cutmix 等。

二、MaxViT

二、MaxViT

儘管隨著上述的 ConvNext 出世,卷積神經網路再度受到歡迎,但目前來說 ViT 仍然搶盡風頭(並非刻意雙關)。

MaxViT:多軸視覺 Transformer 突出顯示了近年來視覺 Transformer 的發展。雖然早期的視覺 Transformer 具有二次複雜度,但已經可以通過許多手段來將視覺 Transformer 應用於具有線性縮放複雜度的更大圖像中。

2022 年 9 月發佈的 MaxViT,目前是 ImageNet 基準測試中的 SOTA 模型。

在 MaxViT 中,這是通過將注意力塊(attention block)分解為具有局部 – 全局互動的兩個部分來實現的:

  • 局部注意力(「塊注意力」);
  • 全局注意力(「網格注意力」)。

值得一提的是,MaxViT 是一種也具備卷積層特徵的卷積 Transformer 混合模型。它可以用於預測建模(包括分類、目標檢測和實例分割)以及生成建模。

順便提一句,在Google學術上搜尋「視覺 Transformer」,僅 2022 年就產出了 5000 多個結果。這個結果雖然可能包括誤報,但仍可表明人們對於視覺 Transformer 的廣泛歡迎程度和感興趣程度。

不過不用擔心,視覺 Transformer 不會完全取代我們喜愛的卷積神經網路。相反,正如 MaxViT 所強調的,當前的趨勢是將視覺 Transformer 和卷積網路一起整合到混合架構中。

三、Stable Diffusion

在 ChatGPT 成為最先進的模型之前,Stable Diffusion 早已在網際網路和社交媒體上普及。這個概念其實最早來源於 2021 年 12 月上傳的論文《High-Resolution Image Synthesis with Latent Diffusion Models》。

由於這篇論文在 2022 年 CVPR 會議上發表,並在 2022 年 8 月憑藉 Stable Diffusion 受到高度關注,我認為將其列入 2022 年的 TOP3 論文名單是公平合理的。

擴散模型是一種概率模型,被設計用於通過逐漸對正態分佈變數進行去噪來學習資料集分佈。這個過程對應於學習長度為 T 的固定的馬爾可夫鏈(Markov Chain)的逆過程。

擴散模型的圖示

擴散模型的圖示。

與使用生成器 (Generator) 和鑑別器 (Discriminator) 之間的極大極小博弈(minimax game)訓練的 GAN 不同,擴散模型是使用最大似然估計(MLE)訓練的基於似然的模型。這有助於避免模式坍塌和其他訓練不穩定性。

擴散模型已經存在了一段時間,但眾所周知,在訓練和推理過程中,從中取樣仍非常昂貴。上述 2022 年論文的作者提到過,5 天的運行時間僅能取樣 50k 張圖像。

《High-Resolution Image Synthesis with Latent Diffusion Models》一文的新穎之處在於人們可以使用預訓練的自編碼器在潛在空間中應用擴散,而非直接使用原始圖像的全解析度原始像素輸入空間。

上文提到的訓練過程可以分為兩個階段:首先,對自編碼器進行預處理,將輸入圖像編碼到較低維度的潛在空間中,以降低複雜性。第二,在預訓練的自動編碼器隱層表徵上訓練擴散模型。

在潛在空間中進行運算,降低了用於訓練和推理的擴散模型的計算成本和複雜性,並可以生成高質量的結果。

本文的另一個貢獻是一般條件下的交叉注意力機制( cross-attention mechanism)。因此,除了無條件圖像生成之外,所提出的潛在擴散模型還能夠進行圖像修復、類條件圖像合成、超解析度圖像重建以及文字到圖像合成 —— 後者正是 DALLE-2 和 Stable Diffusion 聞名的原因。

接下來介紹我的排名榜前十論文中後七篇論文的概述

四、《「通才」智慧體》(A Generalist Agent)。在本文中,研究人員介紹了 Gato,它能夠執行從玩遊戲到控制機器人等 600 多種不同任務。

論文連結:https://arxiv.org/abs/2205.06175

五、《訓練最優計算的大型語言模型》(Training Compute-Optimal Large Language Models)。為了在訓練期間實現最優計算,研究人員認為通過相同的因子來縮放模型大小和訓練 token 的數量都很有必要。他們創建了一個名為 Chinchilla 的模型,例如,該模型的性能優於 Gopher,可以使用比 Gopher 四分之一的參數輸出四倍之多的資料。

論文連結:https://arxiv.org/abs/2203.15556

六、《PaLM:使用 Pathways 縮放語言模型》(PaLM: Scaling Language Modeling with Pathways):文中提出的 PaLM 模型在各種 BIG-bench 任務上都展示了令人驚歎的自然語言理解和生成能力。在某種程度上,它甚至能識別出因果關係。

論文連結:https://arxiv.org/abs/2204.02311

七、《基於大規模弱監督方法的魯棒語音識別》(Robust Speech Recognition via Large-Scale Weak Supervision)。本文介紹了 Whisper 模型,該模型在多語言任務上接受了 68 萬小時的訓練,並表現出了對各種基準資料集(benchmarks)的魯棒泛化性。本文介紹的 Whisper 模型給我留下了深刻的印象。我用它來為我的兩門課程深度學習基礎 —— 運用現代開源棧學習深度學習以及深度學習引言(Deep Learning Fundamentals – Learning Deep Learning With a Modern Open Source Stack)生成字幕。

論文連結:https://arxiv.org/abs/2212.04356

八、《再論表格深度學習的預訓練目標》(Revisiting Pretraining Objectives for Tabular Deep Learning)。我喜歡閱讀大量有關 Tabular 資料的深度學習論文。但我尤其鍾愛這篇論文,因為它強調並提醒我們在附加(通常未標記)資料上進行模型預訓練是多麼重要。(使用如 XGBoost 等基於樹模型無法輕鬆做到這一點。)

論文連結:https://arxiv.org/abs/2207.03208

九、《為什麼基於樹的模型在表格資料上的性能仍然優於基於深度學習的模型?》 (Why do tree-based models still outperform deep learning on tabular data?)。該文的主要收穫是基於樹的模型(隨機森林和 XGBoost)的性能優於在中型資料集(10k 訓練示例)上應用表格資料的深度學習方法。但是隨著資料集大小的增加(這裡:10k → 50k),基於樹的模型和深度學習之間的差距變得越來越小。遺憾的是,這篇論文沒有包含特別多最先進的深度表格網路,不過它進行了魯棒性分析和有趣的討論,絕對值得一讀。

論文連結:https://arxiv.org/abs/2207.08815

十、《用語言模型預測原子級蛋白質結構的進化程度》(Evolutionary-scale prediction of atomic level protein structure with a language model)。該論文提出了迄今為止預測蛋白質三維結構的最大語言模型,它也比以前的方法運算更快,同時還保持著同樣的準確性。該模型創建了 ESM 宏基因組圖譜,是宏基因組蛋白質的第一個大規模結構表徵,具有超過 6.17 億個蛋白質結構。

論文連結:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v3

原文連結:https://magazine.sebastianraschka.com/p/ahead-of-ai-4-a-big-year-for-ai

相關文章

蔚小理走到了命運的「岔路口」

蔚小理走到了命運的「岔路口」

當新能源汽車的資格賽進入衝刺階段,競爭的焦點也發生了變化。 作者 | 周永亮編輯| 鄭玄 近日,隨著小鵬財報發佈,蔚小理都交出了 2022 ...

矽谷都在裁員,奈飛卻在增長

矽谷都在裁員,奈飛卻在增長

2022 年低開高走的奈飛,在年底交出了一份驚豔的答卷。 作者 | 賴求華編輯| 鄭玄 2022 下半年,過去 20 年最寒冷的冬天籠罩矽谷...

2023,元宇宙「脫虛向實」

2023,元宇宙「脫虛向實」

在希望與爭議中,元宇宙渡過了關鍵的一年。 從國際局勢,到新冠疫情,過去三年「新常態」的衝擊,讓外部環境充斥著不確定性,也令這個時代的人們處於...

建設 Web3,現在最需要 Web2 的移民?

建設 Web3,現在最需要 Web2 的移民?

Web3 處在「大規模應用」爆發的前夜 從國際局勢,到新冠疫情,過去三年「新常態」的衝擊,讓外部環境充斥著不確定性,也令這個時代的人們處於前...

B 站最艱難的時刻過去了嗎?

B 站最艱難的時刻過去了嗎?

儘管還在虧損,但 B 站的降本已經開始收穫成效。 作者 | 鄭玄 當一個行業整體意識到必須改變時,相似的關鍵詞就會反覆出現在高管對外的分享中...

CVE-2023-28252在野提權漏洞樣本分析

CVE-2023-28252在野提權漏洞樣本分析

綜述 卡巴斯基披露[1]該在野0day提權漏洞是一個越界寫入(增量)漏洞,當目標系統試圖擴展元資料塊時被利用來獲取system許可權———W...