聯邦學習前路如何?楊強:已到「合久必分」的狀態

衡宇 金磊 發自 凹非寺

2022年,聯邦學習論文數量出現大幅躍升,成為了屢登頂會的香餑餑:

NeurIPS發佈聯邦學習論文41篇,較前一年有近30%的增長幅度;ICML則在2022年收錄聯邦學習論文74篇,幾乎成倍於2021年。

這個規律同樣存在於頂會AAAI、AISTATS、KDD及CVPR中。

聯邦學習論文在頂會頻現,相應的,相關產業實踐也進行得如火如荼。

這個現象的最好解答者,自然是聯邦學習領域的國內最知名大牛:香港科技大學計算機與工程系講座教授和前系主任、中國人工智慧學會(CAAI)榮譽副理事長、微眾銀行首席人工智慧官楊強教授。

不僅因為他是CAAI,AAAI,ACM,IEEE,AAAS等多個國際學會Fellow,能夠解惑一二。

更能激起求知慾的是,這些聯邦學習論文中,有多篇與他帶領的團隊有關聯。

楊強

今年,他在微眾銀行帶領的AI團隊,與上海交通大學、中山大學等機構聯合撰寫了3篇聯邦學習領域論文

這3篇論文,以一作身份,被IJCAI 2022、TPAMI 2022、ACM TIST國際人工智慧頂級學術期刊和頂級學術會議收錄發表。

可信聯邦學習,走的是一條怎樣的路?

2018年,國內引進了聯邦學習(Federated Learning)概念。

為了解決資料割裂、資料孤島等問題,楊強帶領的微眾銀行AI團隊在國內系統性提出聯邦學習理論

能夠保證各企業在自有資料不出本地,不違規的情況下進行聯合建模,提升機器學習建模效果。

而後,又於2019年開源首個工業級聯邦學習技術框架FATE,同年6月捐獻給Linux基金會。

,同年6月捐獻給Linux基金會

3年時間,在聯邦學習領域探索的公司如雨後春筍。

聯邦學習發展空前,已在金融、醫療、網際網路等領域落地應用,並延伸出圖聯邦學習、動態聯邦學習、包容性聯邦學習等研究分支。

從剛開始的2018年至2019年間,FATE和主攻橫向聯邦學習的TensorFlow分庭抗禮,到2019年後,眾多初創公司或以FATE為核心,或推出新系統。

一路至今,用楊強的話來說,現在的聯邦學習已經進入到「合久必分」的狀態。

正是在此基礎上,聯邦學習發展出第二階段,可信聯邦學習

聯邦學習的發展和應用,一直伴隨著這樣的聲音:

存不存在為了提高效率和性能,犧牲安全性的可能?

楊強簡明扼要地解釋道,絕對安全等於絕對低效,絕對高效意味著絕對不安全:「聯合建模要結合安全性和可用性一起看。如果是一個極端安全的模型,安全到不能實際使用,這東西也沒用。」

對此,論文《聯邦學習中隱私與模型性能沒有免費午餐定理》通過研究給出的答案是:隱私保護、模型性能、演算法效率三者需要平衡,且可以平衡。

在聯邦學習過程中,一個半誠實的攻擊者,通過觀察和了解參與方的資料資訊,可能可以推斷使用者的隱私資料。這種針對隱私的攻擊叫做「貝葉斯推斷攻擊(Bayesian Inference Attack)」。

文章從資訊論的角度,為聯邦學習中隱私洩露和效用損失的分析提供了一個通用框架

這個理論框架揭示了對於滿足「貝葉斯隱私」的多方計算系統而言,都滿足「|安全|+|效能|≤常數」這一「安全-效益恆定定律」。

無免費午餐定理通過量化隱私和效用之間的約束關係,證明資訊的相互洩露和模型效能是互相制約的。

之所以叫「無免費的午餐」,是因為研究表明,一般情況下,隱私和效用的權衡中,必須用一定程度的效用降低來交換隱私的保護,將潛在的隱私損失維持在可接受範圍內。

那麼,能不能發明一種「聰明」的演算法,把安全性、模型效能、準確率同時最大化呢?

微眾銀行AI團隊和中山大學合作發表的另一篇論文——《FedCG:利用條件生成對抗網路在聯邦學習中保護隱私並保持模型性能》——正面回答了這個問題。

FedCG,文章提出的一種新的聯邦學習方法,利用條件生成對抗網路,以實現高水平的隱私保護,同時保持模型的性能。

具體而言,FedCG將每個聯邦學習參與者的本地網路分解成一個私有提取器和一個公共分類器,然後保持提取器的本地性來保護隱私。

FedCG概述圖

它結合條件生成對抗網路和分割學習,不是暴露提取器,而是通過與伺服器共享客戶端的生成器來聚合客戶端的共享知識,從而提高本地網路的性能。

實驗表明,與聯邦學習基線相比,FedCG有更好的隱私保護能力,同時在模型性能上也具有競爭力

另外,考慮到聯邦學習不是一次性的訓練,它涉及資料的收集、選擇,模型的訓練、推斷甚至交換,整個過程可能面臨非法複製、重新分發、濫用的風險。

針對於此,結合對模型智慧財產權保護的思考,微眾銀行AI團隊進行了一項工作:提出一種聯邦深度神經網路(FedDNN)所有權驗證方案,稱為FedIPR。

《FedIPR:聯邦學習模型所屬權驗證》一文詳細介紹道,FedIPR方案允許嵌入和驗證私有水印,來申明FedDNN模型的所有權。

有了這個方案,模型由誰做出、有誰用過、誰進行過模型交易,以及模型的危險性、特別性等,都會得到很好的檢測。

如此這般,方便了對聯邦學習模型進行全生命週期管理,也對模型智慧財產權起到保護作用。

模型的歸屬權驗證一直是業界致力於解決的難題,微眾銀行AI團隊是首個在聯邦學習中融入這項工作的團隊。長遠來看,這項工作有利於資料和模型市場的建立和規範。

綜合看來,此次陸續發表的3篇聯邦學習論文,分別從理論、實踐、規模化、工程化等不同的角度,對可信聯邦學習進行了全面探索。

可信聯邦學習的提出,通過提出端到端安全生命週期的管理、FedCG這種防火牆式的安全方法等一系列技術上的提升,再加入許多軟體工程的管理,譬如軟體治理、模型追蹤等,將聯邦學習領域的發展推進了一步。

至此,聯邦學習為何能夠成為頂會們的香餑餑,也就有了清晰的眉目。

而且對於聯邦學習的火熱,楊強還這樣評價道:

聯邦學習的第二階段,也就是可信聯邦學習,從全世界範圍來看都是剛剛起步,到處都有學者響應。

但正所謂能用起來的技術才是好技術,那麼接下來的一個問題便是:

頂會們的「香餑餑」,正如何改變我們的生活?

正如我們剛才提到的,可信聯邦學習需要處理的那些資料,一般都具備較強的獨立性、隱私性、安全性

因此,金融、醫療、物流、政務等場景便成為了聯邦學習發揮其實力極佳的「試驗田」;尤其是在金融場景中,聯邦學習涉足較早。

聯邦學習現在應用上的發展態勢,用「百花齊放」來形容不足為過。

例如全球科技巨頭Google,國內外學術機構如卡內基梅隆大學(CMU)、北京郵電大學等名校也在致力於研究聯邦學習;在論文全球高被引方面,國外機構Google排名第一,而國內機構則是楊強所在的微眾銀行。

而且與之相關的開源框架也是陸續被提出,例如OpenMined推出的Pysyft、微眾銀行的FATE和Google的TFF框架等等。

從大方向上來看,現在微眾銀行所使用的可信聯邦學習,不單單是能夠完成一個項目那麼簡單,更是能夠對項目做一個分析和認證

在此能力的背後,微眾銀行所依託的便是全球首個開源的工業級聯邦學習框架——FATE(Federated AI Technology Enabler)。

而自2019年開源以來,這個框架也在不斷的提升自己的能力。

像剛才我們提到入圍的幾篇論文,都已經被涵蓋了進來,目前已經步入2.0階段。

具體到實際案例,可信聯邦學習在金融行業反欺詐上便起到了很好的作用。

因為在這個過程中所涉及到的資料著實紛繁複雜,包括銀行機構、電商、運營商、政務等等。

各方都需要保障自己資料的安全、隱私以及所有權,但交易過程中相互之間又有所交織。

而可信聯邦學習就能在保障這個大前提之下,還能做到挖掘金融行為、消費行為、通訊行為、社交行為等眾多特徵。

以及再針對不同細分金融反欺詐業務場景構建專有模型,從而提升金融行業的整體反欺詐能力。

再如

再如信貸風控,亦是如此。

以往中小微企業在信貸風控上所面臨的老大難問題,便是信貸評審資料稀缺、不全面、歷史資訊沉澱不足等。

但有了可信聯邦學習之後,就能在確保資料提供方資料安全以及隱私保護的情況下,讓銀行融匯企業經營資料、稅務資料、工商資料、支付資料等多源資訊,豐富建模特徵體系,提升模型的有效性。

由此可見,聯邦學習能夠成為頂會、頂刊們的香餑餑,不僅是因為在科研領域中所具備的前沿性,更是因為它在現實場景中正在發揮著不可替代的作用。

那麼對於被頂會、頂刊們pick的聯邦學習,以及它玩轉資料的這套打法,你怎麼看?

FATE框架地址:

https://github.com/FederatedAI/FATE/blob/master/README_zh.md

參考連結:

[1]https://arxiv.org/pdf/2203.05816.pdf

[2]https://www.ijcai.org/proceedings/2022/324

[3]https://ieeexplore.ieee.org/abstract/document/9847383/

相關文章

區塊鏈跨鏈,該怎麼跨?

區塊鏈跨鏈,該怎麼跨?

在區塊鏈技術領域,關於跨鏈的研究從來都是熱潮迭起。其實分析起來也不奇怪。區塊鏈經過幾年的喧囂、沉澱、昇華,尤其是在國家政策的大力支持下,區塊...

18年後,無人倖免?

18年後,無人倖免?

1 AI,真的覺醒了? 人工智慧,會甦醒嗎? 這是一個古老而又新奇的話題。 「深度學習」天生的不可預測,加深了這種憂慮。 「神經網路」的生物...

世界通訊簡史

世界通訊簡史

█ 萌芽期:現代通訊的誕生 公元前600年左右,古希臘哲學家泰勒斯閒著沒事,拿家裡的琥珀棒蹭一隻小貓。 蹭著蹭著,他發現,琥珀棒把小貓的毛都...