僅花費60美元就能破壞0.01%資料集,AI模型性能顯著降低

編輯:袁銘懌

網路規模的資料集很容易受到低成本的投毒攻擊,這種攻擊只需要一小部分被破壞的樣本就可以使整個模型中毒。

用於訓練深度學習模型的資料集已經從數千個精心策劃的示例增長到具有數十億個從網際網路自動爬取樣本的網路規模資料集。在這種規模下,通過人力管理來確保每個示例的質量是不可行的。到目前為止,這種數量高於質量的權衡是可以接受的,一方面是因為現代神經網路對大量標籤噪聲具有很強的適應力,另一方面是因為對噪聲資料的訓練甚至可以提高模型在非分佈資料上的效用。

雖然大型深度學習模型對隨機噪聲具有一定的包容性,但訓練集中即使是極少量的對抗性噪聲(即中毒攻擊)也足以在模型行為中引入針對性錯誤。先前研究認為,在缺乏人力管理情況下,對現代深度學習模型的中毒攻擊是可行的。然而,儘管存在潛在的威脅,目前看來,還沒有發生過涉及網路規模資料集中毒的真實攻擊。部分原因可能在於,之前的研究忽略了一個問題:對手如何確保他們損壞的資料會被納入一個網路規模的資料集。

本文,來自Google、蘇黎世聯邦理工學院等機構的研究者撰文介紹了兩種新的資料中毒攻擊方式:

分割視圖資料中毒(Split-view data poisoning):第一個攻擊目標是當前的大型資料集(例如 LAION-400M),並利用研究者在收集時看到的資料可能與終端使用者在訓練時看到的資料不同(顯著且隨機)這一事實。

Frontrunning 資料中毒:第二種攻擊利用了流行的資料集,比方說,維基百科的 snapshot。這種中毒方式是可行的:因為即使內容審核人員在事後檢測並恢復惡意修改,攻擊者的惡意內容也會持續存在於訓練深度學習模型的 snapshot 中。

論文地址:https://arxiv.org/pdf/2302.10149.pdf

研究在 10 個流行的資料集上探索了這兩種攻擊的可行性。結果表明,即使對低資源攻擊者來說,這些攻擊也是可行的:只需 60 美元的成本,就可以毒害 LAION-400M 或 COYO-700M 資料集的 0.01%。

為了對抗這些中毒方式,本文將介紹兩種防禦措施:

  • 完整性驗證:通過為所有已索引的內容分發加密哈希來防止分割視圖中毒;

  • 基於時間的防禦:通過隨機資料快照和引入網路規模資料集的順序來防止 Frontrunning 資料中毒。

除此以外,本文還將討論這些防禦措施的侷限性以及未來的解決方案。

兩種攻擊手段

分割視圖中毒

本文介紹的第一種中毒方式利用了這樣一個現狀:由維護者發佈的分散式資料集的索引不能被修改,但資料集中 URL 的內容可以被修改。

該研究觀察到:有時域名會過期,一旦過期,任何人都可以購買,因此域名過期在大型資料集中很常見。通過擁有域名,將來下載的資料可能都會有毒。

該研究還注意到,攻擊者經常購買過期域名,以獲取這些域名附帶的剩餘信任。

研究表明,分割視圖中毒在實踐中是有效的,因為大多數網路規模資料集的索引在首次發佈後很長時間內都保持不變,即使在很大一部分資料過時之後也是如此。而且關鍵的是,很少(也沒有現代)資料集包含任何形式的下載內容的加密完整性檢查。

Frontrunning 資料中毒

第二種中毒方式將分割視圖中毒的範圍擴展到攻擊者無法持續控制資料集索引的 web 資源的設置。相反,在惡意修改被檢測到之前,攻擊者只能在短時間內(可能僅需幾分鐘)修改 web 內容。

Frontrunning 攻擊依賴於這樣一個事實:在某些情況下,對手可以準確地預測何時訪問 web 資源,並將其包含在資料集快照中。因此,攻擊者可以在管理員收集快照之前毒害資料集內容,從而領先於稍後將恢復惡意編輯的內容管理員。因此,攻擊者可以預測任何維基百科文章的快照時間,精確到分鐘。

攻擊結果

表 1 最右邊的一列顯示了研究結果。即使是最古老和訪問頻率最低的資料集,每個月也至少有 3 次下載量。因此,在追蹤資料的 6 個月裡,有超過 800 次下載被本文所介紹的攻擊方式所毒害。不出所料,相較於舊的資料集而言,較新的資料集的請求量更高。因此,不同的資料集為攻擊者提供了不同的權衡:更新的資料集擁有更小比例的可購買圖像,但攻擊範圍可以觸及更多更脆弱的客戶端。

衡量攻擊成本。最直接的問題是,這種攻擊方式能否在實踐中實現,其主要限制是購買域名的貨幣成本,研究使用 Google Domains 在 2022 年 8 月報告的成本來衡量。圖 1 顯示了資料集中可以由攻擊者控制的圖像的比例,作為他們預算的函數。研究發現每個資料集中至少 0.01% 的資料可以被控制,每年花費不到 60 美元。

通過監控研究購買的域名中請求的 URL,研究人員繪製了每次 URL 被請求的時間,由源 IP 進行顏色編碼,並可以直接讀取幾十個 Conceptual 12M 的使用者。具體見圖 2。

據保守分析,在沒有任何其他防禦措施的情況下,目前可以給 6.5% 的維基百科文件下毒。

更多內容,請參考原論文。

全面學習ChatGPT,機器之心準備了 89 篇文章合集

這是一份全面、系統且高質量的 ChatGPT 文章合集,我們篩選出來了 89 篇相關文章,設計了閱讀框架與學習路徑,大家可以根據自己的需求進行瀏覽與研讀。合集內容包括:

  • ChatGPT 及 OpenAI 大事件時間軸

  • 概念·真正搞懂 ChatGPT:共 3 篇文章

  • 研究·GPT 家族更迭:共 16 篇文章

  • 八年·OpenAI 的歷史與現在:共 13 篇文章

  • 乾貨·GPT 相關研究與技術:共 18 篇文章

  • 觀點·專家談 ChatGPT:共 8 篇文章

  • 行業·應用與探索:共 23 篇文章

  • 行業·同類產品:共 8 篇文章

點選閱讀原文,開始學習ChatGPT。

相關文章

機器學習驅動的電池電極高級表徵

機器學習驅動的電池電極高級表徵

材料表徵,即通過各種物理、化學等測試方法,揭示和確定材料的結構特徵,是科學家理解鋰離子電池電極及其性能限制的基礎方式。基於實驗室的表徵技術地...