重新審視AI,神經網路中概念符號湧現的發現與證明

該研究發現在大部分情況下,神經網路的表徵是清晰的、稀疏的、符號化的。

本文圍繞近期的兩項工作,討論神經網路中符號概念的湧現現象,即『深度神經網路的表徵是否是符號化的』的問題。如果我們繞開 「應用技術提升」 的視角,從 「科學發展」 的角度來重新審視 AI,證明 AI 模型中的符號湧現現象無疑是具有重大意義的。

1. 首先,目前大部分的可解釋性研究都在試圖將神經網路解釋為一個 「清晰的」、「語義化的」、或 「邏輯化的」 模型。但是,如果無法證明神經網路的符號湧現,如果神經網路內在表徵成分真的有大量的混亂成分,那麼大部分的可解釋性研究就失去了其基本事實依據。

2. 其次,如果無法證明神經網路的符號湧現,深度學習的發展將會大概率困在 「結構」、「損失函數」、「資料」 等外圍因素的層面,而無法直接高層的認知層面去實現知識層面的互動式學習。往這個方向發展需要更乾淨清晰的理論支撐。

因此,本文主要從以下三個方面介紹。

1. 如何去定義神經網路所建模的符號化概念,從而可靠地發現神經網路的符號湧現現象。

2. 為什麼所量化的符號化概念可以認為是可信的概念(稀疏性、對神經網路表徵的 universal matching、遷移性、分類性、對歷史解釋性指標的解釋)。

3. 如何證明符號化概念的湧現 —— 即理論證明當 AI 模型在某些情況下(一個並不苛刻的條件),AI 模型的表徵邏輯可以解構為極少數的可遷移的符號化概念的分類效用(這部分會在 4 月底公開討論)。

論文地址:https://arxiv.org/pdf/2111.06206.pdf

論文地址:https://arxiv.org/pdf/2302.13080.pdf

該研究作者包括上海交通大學碩士二年級學生李明傑、上海交通大學博士三年級學生任潔,李明傑和任潔都師從張拳石老師。他們所在的實驗室團隊常年做神經網路可解釋性的研究。對於可解釋性領域,研究者可以從不同角度來分析,有解釋表徵的,有解釋性能的,有相對可靠合理的,也有不合理的。但是,深入討論下去,對神經網路的解釋有兩個根本的願景,即「能否清晰且嚴謹地表示出神經網路所建模的概念」「能否準確解釋出決定神經網路性能的因素」。

在「解釋神經網路所建模的概念」這一方向上,所有研究者都必須面對的一個核心問題 ——「神經網路的表徵到底是不是符號化概念化的」。如果這個問題回答不清楚,那麼後續的研究很難進行 —— 如果神經網路的表徵本身都是混亂的,然後研究者強行用一堆 「符號化的概念」 或 「因果邏輯」 去解釋,這樣一來方向就錯了?對神經網路符號化表徵的假設,是進行深入研究該領域的基礎,但是對此問題的論證往往讓人無從下手。

大部分研究者對神經網路的第一直覺是 「它不可能是符號化的吧?」 神經網路畢竟不是圖模型。在一篇由 Cynthia 等人撰寫的論文中《Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead》 [3],,讓人們誤以為對神經網路的事後解釋(post-hoc explanation)天然地是不可靠的。

那麼,神經網路內在表徵真的是非常混亂的?而不是清晰的、稀疏的、符號化的嗎?圍繞這個問題,我們定義了博弈互動 [4,5],證明了神經網路表徵瓶頸 [6],研究了神經網路對視覺概念表徵的特點 [7,8],從而證明了互動概念與神經網路泛化和魯棒性的關係 [9,10,11,12],進而完善了沙普利值 [13],但是實驗室前期僅僅圍繞 「符號化表徵」 核心的周邊進行探索,始終無法直接探索神經網路表徵是否是符號化的

這裡我們先說結論 ——在大部分情況下,神經網路的表徵是清晰的、稀疏的、符號化的。這個結論背後有大量的理論證明,以及大量的實驗論證。在理論方面,我們目前的研究證明了一些可以支撐 「符號化」 的特性,但是目前證明還不足以對 「符號化表徵」 給出嚴謹明確的解答。未來幾個月,我們會有更加嚴謹、全面的證明。

如何定義神經網路所建模的概念

在分析神經網路之前,我們需要明確 「如何定義網路所建模的概念」。實際上,對於這一問題,之前已經有了相關研究 [14,15],並且實驗結果也比較優異 —— 但是,我們認為,「概念」 的定義在理論上應有 「嚴謹性」 的數學保證。

因此,我們在論文 [1] 中定義了 I(S) 這一指標,用來量化概念 S 對於網路輸出的效用,這裡 S 指的是組成這一概念的所有輸入變數的集合。例如,給定一個神經網路

和一個輸入句子 x=「I think he is a green hand.」,每個單詞可以看成網路的其中一個輸入變數,句中的三個詞 「a」,「green」,「hand」 可以構成一個潛在的概念 S={a,green,hand}。每個概念 S 表示了 S 中輸入變數之間的 「與」 關係:當且僅當 S 中的輸入變數全部出現時,這一概念才被觸發,從而為網路輸出貢獻 I (S) 的效用。而當 S 中任意變數被遮擋時,I (S) 這部分效用就從原本的網路輸出中移除了。例如,對於 S={a,green,hand} 這一概念,如果把輸入句子中的 「hand」 一詞遮擋,那麼這一概念就不被觸發,網路輸出中也不會包含這一概念的效用 I (S)。

我們證明了神經網路輸出總可以被拆分為所有觸發概念效用之和。即在理論上,對於一個包含 n 個輸入單元的樣本,最多有

種不同的遮擋方式,我們總可以用『少量概念』的效用來『精確擬合』神經網路『所有

種』不同遮擋樣本上的輸出值,從而證明了 I (S) 的『嚴謹性』。下圖給了一個簡單的例子。

進一步,我們在論文 [1] 中證明了 I (S) 滿足博弈論中 7 條性質,進一步說明了這一指標的可靠性。

除此以外,我們還證明了博弈互動概念 I (S) 能夠解釋博弈論中大量經典指標的基本機理,比如 Shapley value [16]、Shapley interaction index [17],以及 Shapley-Taylor interaction index [18]。具體地,我們可以將這三種指標表示為互動概念的不同線性和的形式。

實際上,課題組的前期工作已經基於博弈互動概念指標來定義 Shapley value 的最優基準值 [13],並探索視覺神經網路所建模的『原型視覺概念』及其『美觀度』[8]。

神經網路是否建模了清晰、符號化的概念表徵

有了這一指標,我們進一步探索上面提到的核心問題:神經網路是否真的能從訓練任務中總結出清晰的、符號化的、概念化的表徵?所定義的互動概念真的能表示一些有意義的 「知識」,還是僅僅是一個純粹從數學上湊出來的沒有明確意義的 tricky metrics?為此,我們從以下四個方面回答這一問題 —— 符號化概念化的表徵應當滿足稀疏性、樣本間遷移性、網路間遷移性,以及分類性。

要求一(概念稀疏性):神經網路所建模的概念應當是稀疏的

不同於連結主義,符號主義的一個特性在於人們希望用少量的、稀疏的概念來表示網路學到的知識,而不是用大量、稠密的概念。實驗中我們發現,在大量潛在概念中,僅有非常少量的顯著概念。即大部分互動概念的互動效用 I (S) 趨近於 0,故可以忽略,僅有極少量的互動概念有較顯著的互動效用 I (S),這樣神經網路的輸出僅僅決定於少量概念的互動效用。換句話說,神經網路對於每個樣本的推斷可以被簡潔地解釋為少量顯著概念的效用。

要求二(樣本間遷移性):神經網路所建模的概念在不同樣本間應當具有遷移性

在單個樣本上滿足稀疏性是遠遠不夠的,更重要的是,這些稀疏的概念表達應當能夠在不同樣本之間互相遷移。如果同一個互動概念可以在不同樣本中表徵,如果不同樣本總提取出類似的互動概念,那麼這個互動概念更可能代表一種有意義的普適的知識。反之,如果大部分互動概念僅僅在一兩個特定樣本上有表徵,那麼這樣所定義的互動更傾向於一個僅有數學定義但沒有物理意義的 tricky metric。在實驗中,我們發現,往往存在一個較小的概念字典,它能夠解釋神經網路為同類別樣本所建模的大部分概念。

我們也視覺化了一些概念,並且發現,相同的概念通常對不同的樣本產生類似的效果,這也驗證了概念在不同樣本之間的遷移性。

要求三(網路間遷移性):不同神經網路所建模的概念之間應當具有遷移性

類似地,這些概念應當能夠被不同的神經網路穩定地學到,無論是不同初始化的網路,還是不同架構的網路。雖然神經網路可以設計為全然不同的架構,建模不同維數的特徵,但是如果不同的神經網路面對同一個具體任務可以實現『殊途同歸』,即如果不同神經網路都可以穩定地學習到類似的一組互動概念,那麼我們可以認為這組互動概念是面向這個任務的根本的表徵。比如,如果不同的人臉檢測網路都不約而同地建模了眼睛、鼻子、嘴之間的互動,那麼我們可以認為這樣的互動是更 「本質的」「可靠的」。在實驗中,我們發現,越顯著的概念越容易被不同的網路同時學到,相對比例的顯著互動是被不同神經網路所共同建模的。

要求四(概念分類性):神經網路所建模的概念應當具有分類性

最後,對於分類任務而言,如果一個概念具有較高的分類性,那麼它應當為大多數樣本上的分類起到一致的正向作用(或是一致的負向作用)。較高的分類性可以驗證這個概念可以獨立地承擔分類任務,從而更大可能的是一個可靠的概念,而不是不成熟的中間特徵。我們同樣設計了實驗來驗證這一性質,發現神經網路建模的概念往往具有較高的分類性。

綜上所述,上面的四個方面表明,在大部分情況下,神經網路的表徵是清晰的、稀疏的、符號化的。當然,神經網路也並不是每時每刻都能夠建模這種清晰、符號化的概念,在少數極端情況下,神經網路學不到稀疏、可遷移的概念,具體請看我們的論文 [2]。

此外,我們還利用此互動來解釋了大模型[22]。

神經網路的符號化表徵在神經網路可解釋性中的意義

1. 從可解釋性領域發展的角度來看,最直接的意義就是為 「概念層面解釋神經網路」 找到了一定的依據。如果神經網路本身的表徵都不是符號化的,那麼從符號化概念層面對神經網路的解釋就只能是隔靴搔癢,解釋的結果一定是似是而非的,並不能實質性的推導深度學習進一步的發展。

2. 從 2021 年開始,我們逐步構建了一個基於博弈互動的理論體系。發現基於博弈互動,我們可以統一解釋兩個核心問題 「怎樣量化神經網路所建模的知識」 和 「怎樣解釋神經網路的表徵能力」。在 「怎樣量化神經網路所建模的知識」 方向上,除了本文提到的兩個工作之外,課題組的前期工作已經基於博弈互動概念指標,來定義 Shapley value 的最優基準值 [13],並探索視覺神經網路所建模的『原型視覺概念』及其『美觀度』[7,8]。

3. 在 「怎樣解釋神經網路的表徵能力」 方向上,課題組證明了神經網路對不同互動的表徵瓶頸 [6],研究了神經網路如何通過其所建模的互動概念來確定其泛化性 [12,19],研究神經網路所建模的互動概念與其對抗魯棒性和對抗遷移性的關係 [9,10,11,20],證明了貝葉斯神經網路更難以建模複雜互動概念 [21]。

更多閱讀請參考:

https://zhuanlan.zhihu.com/p/264871522/

參考文獻

[1] Ren et al. 「Can we faithfully represent masking states to compute Shapley values on a DNN?」in CVPR 2023

[2] Li et al. 「Does a Neural Network Really Encode Symbolic Concepts?」 in arXiv:2302.13080

[3] Rudin, Cynthia. 「Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead.」 Nature machine intelligence (2019): 206-215. URL: https://www.nature.com/articles/s42256-019-0048-x

[4] Zhang et al. 「Interpreting multivariate Shapley interactions in DNNs.」 AAAI 2021. Vol. 35. No. 12. 2021. URL: https://arxiv.org/abs/2010.05045 Zhihu blog: https://zhuanlan.zhihu.com/p/264953129

[5] Zhang et al. 「Building interpretable interaction trees for deep NLP models.」 AAAI 2021. URL: https://arxiv.org/abs/2007.04298. Zhihu blog: https://zhuanlan.zhihu.com/p/264953129

[6] Deng et al. 「Discovering and explaining the representation bottleneck of DNNs.」 ICLR 2022. URL: https://arxiv.org/abs/2111.06236 Zhihu blog: https://zhuanlan.zhihu.com/p/422420088

[7] Cheng et al. 「A game-theoretic taxonomy of visual concepts in dnns.」 arXiv:2106.10938 (2021). URL: https://arxiv.org/abs/2106.10938 Zhihu blog: https://zhuanlan.zhihu.com/p/386548661

[8] Cheng et al. 「A hypothesis for the aesthetic appreciation in neural networks.」 arXiv:2108.02646 (2021). URL: https://arxiv.org/abs/2108.02646 Zhihu blog: https://zhuanlan.zhihu.com/p/395709713

[9] Wang et al. 「A unified approach to interpreting and boosting adversarial transferability.」 ICLR 2021. URL: https://arxiv.org/abs/2010.04055 Zhihu blog: https://zhuanlan.zhihu.com/p/369883667

[10] Ren et al. 「A unified game-theoretic interpretation of adversarial robustness.」 NeurIPS 2021. URL: https://arxiv.org/abs/2111.03536 Zhihu blog: https://zhuanlan.zhihu.com/p/361686461

[11] Zhang et al. 「Proving Common Mechanisms Shared by Twelve Methods of Boosting Adversarial Transferability.」 arXiv:2207.11694 (2022). URL: https://arxiv.org/abs/2207.11694 Zhihu blog: https://zhuanlan.zhihu.com/p/546433296

[12] Zhang et al. 「Interpreting and boosting dropout from a game-theoretic view.」 ICLR 2021. URL: https://arxiv.org/abs/2009.11729. Zhihu blog: https://zhuanlan.zhihu.com/p/345561960

[13] Ren et al. 「Can We Faithfully Represent Masking States to Compute Shapley Values on a DNN?」 ICLR 2023. URL: https://arxiv.org/abs/2105.10719 Zhihu blog: https://zhuanlan.zhihu.com/p/395674023

[14] Bau et al. 「Network dissection: Quantifying interpretability of deep visual representations.」 CVPR 2017. URL: http://openaccess.thecvf.com/content_cvpr_2017/html/Bau_Network_Dissection_Quantifying_CVPR_2017_paper.html

[15] Kim et al. 「Interpretability beyond feature attribution: Quantitative testing with concept activation vectors (TCAV).」 ICML 2018. URL: http://proceedings.mlr.press/v80/kim18d.html

[16] Shapley, L. S. A value for n-person games. Contributions to the Theory of Games, 2 (28):307–317, 1953.

[17] Grabisch, M. and Roubens, M. An axiomatic approach to the concept of interaction among players in cooperative games. International Journal of game theory, 28 (4):547–565, 1999.

[18] Sundararajan et al. “The Shapley Taylor interaction index.” ICML 2020. URL: http://proceedings.mlr.press/v119/sundararajan20a.html

[19] Zhou et al. 「Concept-Level Explanation for the Generalization of a DNN」 arXiv:2302.13091 (2023), URL: https://arxiv.org/abs/2302.13091

[20] Wang et al. 「Interpreting Attributions and Interactions of Adversarial Attacks」 ICCV 2021.

[21] Ren et al. 「Bayesian Neural Networks Tend to Ignore Complex and Sensitive Concepts」arXiv:2302.13095 (2023), URL: https://arxiv.org/abs/2302.13095

[22] Shen et al. “Can the Inference Logic of Large Language Models be Disentangled into Symbolic Concepts?”arXiv:2304.01083(2023), URL: https://arxiv.org/abs/2304.01083

相關文章

OceanBase:螞蟻爬上舞臺

OceanBase:螞蟻爬上舞臺

淺友們大家好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你特別想聽到誰的故事...

區塊鏈跨鏈,該怎麼跨?

區塊鏈跨鏈,該怎麼跨?

在區塊鏈技術領域,關於跨鏈的研究從來都是熱潮迭起。其實分析起來也不奇怪。區塊鏈經過幾年的喧囂、沉澱、昇華,尤其是在國家政策的大力支持下,區塊...

iOS 14.2,問題有點多?

iOS 14.2,問題有點多?

斷觸、綠屏、嚴重耗電問題、螢幕亮度異常,就目前的情況看,iOS 14.2 是個不成熟,漏洞百出的正式版系統。 第一:iPhone 12 mi...