NLPer,是時候重視因果推理了!這有一份楊笛一等撰寫的綜述

編輯:張倩

在這篇綜述論文中,來自佐治亞理工學院的楊笛一等十幾位研究者系統闡述了自然語言處理中的因果推理。

科學研究的一個基本目標是了解因果關係。然而,儘管因果在生活和社會科學中扮演了重要角色,它在 NLP 中卻沒有得到同樣重要的地位,後者通常更加重視預測任務。隨著因果推理和語言處理交叉研究領域的出現,二者之前的界限正變得模糊,但 NLP 中的因果推理研究仍然分散在各個領域,沒有統一的定義、基準資料集和對剩餘挑戰的清晰表述。

在這篇綜述論文中,來自以色列理工學院的 Amir Feder、佐治亞理工學院的楊笛一等十幾位研究者系統闡述了自然語言處理中的因果推理,為計算語言學界提供了一個統一的因果推理概述。具體來說,他們介紹了估計因果效應的統計學挑戰,包括文字作為 outcome、treatment 或解決干擾(confounding)的手段等情況。此外,他們還探討了因果推理的潛在用途,以提高 NLP 模型的性能、穩健性、公平性和可解釋性。

論文連結:https://arxiv.org/pdf/2109.00725v1.pdf

為什麼要重視 NLP 中的因果推理

很多科學領域對於將文字整合成資料越來越感興趣。NLP 研究人員可能不熟悉這些領域的一個關鍵特性,即強調因果推理。例如,在推薦一種新的藥物療法之前,臨床醫生想知道這種藥物與疾病進展之間的因果關係。因果推理涉及一個通過干預(intervention)創造的反事實世界的問題:如果當時給病人用了藥,他們的病情會如何發展?正如下面將要解釋的,在觀察資料中,因果效應並不等同於服用藥物的患者與其觀察到的疾病進展之間的相關性。現在有關於使用傳統(非文字)資料集進行有效推理的技術的深入文獻,但這些技術在自然語言資料中的應用引發了新的挑戰。

一直以來,傳統 NLP 應用的研究目的都是作出準確的預測:通常任何統計相關性都被認為是可接受的,無論潛在的因果關係如何。然而,隨著 NLP 在高風險場景中的部署愈發普遍,我們不能依賴通常的假設,即訓練和測試資料是同分布的。我們可能不會滿足於無法解釋的黑箱預測器。對於這兩個問題,因果推理提供了一條有希望的道路:資料生成過程中因果結構的領域知識可以提示歸納偏置,從而帶來更穩健的預測器,而預測器本身的因果視角可以提供關於其內部運轉方式的新見解。

因此,這篇綜述的核心主張是:加深因果推理與 NLP 之間的聯繫,可能對促進社會科學和 NLP 研究具有重要意義。

這篇綜述寫了什麼?

在論文中,研究者將因果推理與 NLP 之間的交集分為兩個不同的領域:1)從文字中估計因果關係;2)利用因果形式體系提高 NLP 方法的可靠性。他們利用兩個例子說明了其中的區別。

例 1. 一個線上論壇允許其使用者在他們的個人資料中用一個圖示表示性別。他們注意到,圖示為「女性」的使用者所發的帖子得到的點贊量要少一些。為了評估這一政策(允許使用者在資料中提供性別資訊),他們問了一個問題:被認為是女性會降低帖子的受歡迎程度嗎?

例 1 中要探討的是「被認為是女性(treatment)」和「帖子得到的點贊量(outcome)」之間是否存在因果關係。這裡的反事實問題就成了:如果我們操控了一個帖子的性別圖示,它能得到多少個贊?

被觀察到的「被認為是女性」和「帖子得到的點贊量」之間的關聯一般不符合因果效應。這是因為,出現這種關聯可能有兩方面原因:1)確實存在因果關係;2)由干擾因子引起的偽相關,即那些與 treatment 和 outcome 都有關係的變數。

在這個例子中,帖子的話題就可能是一個干擾因子:圖示為女性的使用者所發的帖子可能更多的是關於某個話題的,而該話題本身就很難吸引人點贊。正如論文第二部分所言,由於干擾因子的存在,在沒有假設的情況下估計因果關係是不可能的。

例 1 強調的是這樣一種設置:文字編碼了因果效應的相關干擾因子。「文字作為一種干擾因子(text as a confounder)」是我們可以用文字資料作出的眾多因果推理之一。文字資料還可以編碼 outcome 或感興趣的 treatment。例如,我們可能想知道被感知到的性別如何影響到一個帖子所收到的回覆的情緒(text as outcome),或者一種寫作風格如何影響到一個帖子所收到的贊(text as treatment)?

NLP 有助於因果推理。文字資料的因果推理涉及幾個不同於典型因果推理的挑戰:文字是高維的,需要複雜的建模來衡量語義上有意義的因素,如主題,而且需要仔細思考,以形式化因果問題對應的干預。從主題模型到上下文嵌入,NLP 在建模語言方面的發展為從文字中提取所需資訊以估計因果效應提供了有前景的方法。然而,我們需要新的假設,以確保 NLP 方法的使用能夠帶來有效的因果推理。作者在論文的第三部分討論了從文字中估計因果效應的現有研究,並指出了其中的挑戰和機遇。

例 2. 一家醫學研究中心想要構建一個分類器,用於從病人醫療記錄的文字敘述中檢測臨床診斷。這些記錄彙總在多個醫院站點,目標臨床狀況的頻率和敘述的寫作風格都有所不同。當分類器應用於訓練集之外的站點的記錄時,它的準確率會下降。事後分析表明,這個分類器在看起來不相關的特性上投入了很高的權重,比如格式標記。

和例 1 一樣,例 2 也涉及到一個反事實問題:如果我們改變醫院站點,同時保持真實的臨床狀態不變,分類器的預測是否會改變?我們希望分類器依靠那些表達臨床狀況的短語來作出判斷,而不是寫作風格。然而,在訓練資料中,由於站點成了混淆變數,臨床狀況和寫作風格之間就有了虛假的相關性:例如,某個站點可能由於它自身的位置或特殊性而更容易遇到目標臨床條件,也可能使用獨特的文字特徵,如在每個敘述的開頭使用樣板文字。在訓練集中,這些特徵將影響標籤的預測,但它們不太可能在新站點的部署場景中有用。在本例中,醫院站點就像一個干擾因子:它在文字的某些特徵和預測目標之間建立了虛假的相關性。

例 2 顯示了缺乏穩健性是如何降低 NLP 方法可靠性的。一個相關的問題是,NLP 系統通常是黑盒,這讓我們很難理解人類可解釋的文字特徵如何導致觀測到的預測。在這種設置中,我們想知道文字的某些部分(例如一些 token 序列)是否導致了 NLP 方法的輸出(例如分類預測)。

因果推理可以幫助 NLP。為了解決 NLP 方法的穩健性和可解釋性問題,我們需要新的標準來學習不只會利用相關性的模型。例如,我們希望預測器在我們對本文稍作更改時保持不變,例如在保持 ground truth 標籤不變的情況下更改格式。

利用因果來發展新的準則,為建立可靠、可解釋的自然語言處理方法提供服務,這是相當有希望的。在論文的第 4 部分,研究者概述了現有的研究,並列舉了使用因果推理來促進自然語言處理研究的挑戰和機遇。

以下是該論文的完整目錄:

更多細節請參考論文

更多細節請參考論文。

機器之心 · 機動組

機動組是機器之心發起的人工智慧技術社區,聚焦於學術研究與技術實踐主題內容,為社區使用者帶來技術線上公開課、學術分享、技術實踐、走近頂尖實驗室等系列內容。機動組也將不定期舉辦線下學術交流會與組織人才服務、產業技術對接等活動,歡迎所有 AI 領域技術從業者加入。

  • 點選閱讀原文,訪問機動組官網,觀看全部視訊內容:

  • 關注機動組服務號,獲取每週直播預告。