編輯:澤南、小舟
「深度神經網路非常難以訓練,我們提出的殘差網路框架使得神經網路的訓練變得容易很多。」文章摘要的開頭如今已被無數研究者們細細讀過。
這是一篇計算機視覺領域的經典論文。李沐曾經說過,假設你在使用卷積神經網路,有一半的可能性就是在使用 ResNet 或它的變種。
前幾天,人們發現 ResNet 論文被引用數量悄然突破了 10 萬加,距離論文的提交剛過去六年。

《Deep Residual Learning for Image Recognition》在 2016 年拿下了計算機視覺頂級會議 CVPR 的最佳論文獎,相比 NeurIPS 最高熱度論文《Attention is All You Need》,ResNet 的被引數多出了幾倍。這一工作的熱度如此之高,不僅是因為 ResNet 本身的久經考驗,也驗證了 AI 領域,特別是計算機視覺如今的火熱程度。

論文連結:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf
該論文的四位作者何愷明、張祥雨、任少卿和孫劍如今在人工智慧領域裡都是響噹噹的名字,當時他們都是微軟亞研的一員。微軟亞研是業內為數不多的,能夠獲得科技巨頭持續高投入的純粹學術機構。
說道論文字身,殘差網路是為了解決深度神經網路(DNN)隱藏層過多時的網路退化問題而提出。退化(degradation)問題是指:當網路隱藏層變多時,網路的準確度達到飽和然後急劇退化,而且這個退化不是由於過擬合引起的。

假設一個網路 A,訓練誤差為 x。在 A 的頂部添加幾個層構建網路 B,這些層的參數對於 A 的輸出沒有影響,我們稱這些層為 C。這意味著新網路 B 的訓練誤差也是 x。網路 B 的訓練誤差不應高於 A,如果出現 B 的訓練誤差高於 A 的情況,則使用添加的層 C 學習恆等對映(對輸入沒有影響)並不是一個平凡問題。
為了解決這個問題,上圖中的模組在輸入和輸出之間添加了一個直連路徑,以直接執行對映。這時,C 只需要學習已有的輸入特徵就可以了。由於 C 只學習殘差,該模組叫作殘差模組。
此外,和當年幾乎同時推出的 GoogLeNet 類似,它也在分類層之後連接了一個全局平均池化層。通過這些變化,ResNet 可以學習 152 個層的深層網路。它可以獲得比 VGGNet 和 GoogLeNet 更高的準確率,同時計算效率比 VGGNet 更高。ResNet-152 可以取得 95.51% 的 top-5 準確率。
ResNet 網路的架構和 VGGNet 類似,主要包括 3×3 的卷積核。因此可以在 VGGNet 的基礎上在層之間添加捷徑連接以構建一個殘差網路。下圖展示了從 VGG-19 的部分早期層合成殘差網路的過程。

ResNet 的部分結構。很多人說,何愷明的論文非常易懂,光看插圖就能讀懂思想。
ResNet 因其強大的表徵能力,除圖像分類以外,包括目標檢測和臉部辨識在內的許多計算機視覺應用都得到了性能提升。自 2015 年 問世以後,領域內許多研究者都試圖對該模型做出一些改進,以衍生出一些更適合特定任務的變體。這也是 ResNet 超高引用量的重要原因之一。
在 ResNet 引用突破十萬大關時,另一篇經典論文,2012 年的 AlexNet 被引量也突破了十萬。
AlexNet 是 2012 年 ImageNet 競賽冠軍獲得者 Alex Krizhevsky 設計的卷積神經網路,最初是與 CUDA 一起使用 GPU 支持運行的。該網路的錯誤率與前一屆冠軍相比減小了 10% 以上,比亞軍高出 10.8 個百分點。圖靈獎獲得者 Geoffrey Hinton 也是 AlexNet 的作者之一,多倫多大學 SuperVision 組的 Ilya Sutskever 是第二作者。

論文連結:https://papers.nips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
Alexnet 網路包含 6000 萬個參數和 65000 萬個神經元,8 層結構中包含 5 層卷積層和 3 層全連接層。Alexnet 首次在卷積神經網路中成功應用了 ReLU、Dropout 和 LRN 等 Trick。

一篇 CVPR 2016 的文章,和一篇 NeurIPS 2012 的文章雙雙突破 10 萬引用,凸顯了 AI 領域近年來的火熱。另外值得一提的是,AlexNet 是 2012 年 ImageNet 圖像識別競賽的冠軍,而 ResNet 是 2015 年的冠軍。

根據 Google Scholar 的統計,ResNet 第一作者何愷明(Kaiming He)一共發表了 69 篇論文,H Index 資料為 59。

何愷明是我們耳熟能詳的 AI 領域研究者。2003 年他以標準分 900 分獲得廣東省高考總分第一,被清華大學物理系基礎科學班錄取。在清華物理系基礎科學班畢業後,他進入香港中文大學多媒體實驗室攻讀博士學位,師從湯曉鷗。何愷明曾於 2007 年進入微軟亞洲研究院視覺計算組實習,實習導師為孫劍。2011 年博士畢業後,他加入微軟亞洲研究院工作,任研究員。2016 年,何愷明加入 Facebook 人工智慧實驗室,任研究科學家至今。
何愷明的研究曾數次得獎,他曾於 2009 年拿到國際計算機視覺頂會 CVPR 的 Best Paper,2016 年再獲 Best Paper 獎,2021 年有一篇論文是最佳論文的候選。何愷明還因為 Mask R-CNN 獲得過 ICCV 2017 的最佳論文(Marr Prize),同時也參與了當年最佳學生論文的研究。
他最近一次被人們關注的研究是 11 月份的《Masked Autoencoders Are Scalable Vision Learners》,提出了一種泛化性能良好的計算機視覺識別模型,有望為 CV 的大模型帶來新方向。
