在這篇 NeurIPS2022 論文中,來自上海交通大學、上海人工智慧實驗室、南加州大學的研究者提出新一代通訊高效的協作感知方法,可將頻寬佔用降低為十萬分之一。
盲人摸象的寓言啟示著我們,個體對世界的感知具有不可避免的侷限性,有效的協作是打開視野和格局的重要途徑。因此,協作感知應運而生:多個集 「感 – 傳 – 算」 於一生的智慧體分散式地交換關鍵資訊,提升彼此的感知能力,從根本上解決遮擋、遠距離等個體難以克服的感知問題。相關技術方法將 AI 和通訊技術高度整合,對車路協同,無人集群等群體智慧應用有著深刻影響。
協作感知助力無人機集群的超視距探測。
然而,如何最大限度利用有限的通訊資源,凝練精簡且重要的感知資訊,在眾多智慧體中選擇緊密的合作伙伴,並充分融合合作伙伴分享的資訊,是協作感知的關鍵問題。
為了突破這一瓶頸,上海交通大學、上海人工智慧實驗室聯合南加州大學在 NeurIPS 2022 上發表論文,提出新一代通訊高效的協作感知方法,相比於之前的主流方法,在達到相同 3D 目標探測能力的前提下,可將頻寬佔用降低為十萬分之一!

論文連結:https://arxiv.org/abs/2209.12836
程式碼連結:https://github.com/MediaBrain-SJTU/Where2comm
協作感知的效果:感知超視距、通訊超高效
基於清華和百度在 CVPR 2022 上提出的全球首個車路協同資料集 DAIR-V2X,研究者對比了單體感知和協作感知在 3D 目標探測任務的效果,如下面的動圖所示(綠框為真值,紅框為探測)。左圖展示了單輛無人車的探測效果,受限於傳感器的探測範圍和物理遮擋,左側路口的多量車難以被有效探測,右圖展示了一個路邊單元和一輛無人車協作探測的效果,基於本文提出的Where2comm方法,實現了超視距的感知。由此可見,協作感知通過同一場景中多智慧體之間互通有無,分享感知資訊,使得每一個智慧體都能夠獲得對整個場景更為準確全面的理解。
Where2comm在真實車路協同資料集DAIR-V2X上實現超視距感知
為全面展示本文所提出的 Where2comm 的優異性能,研究者在四個資料集上對其進行驗證,包括無人飛機集群資料 CoPerception-UAVs, 車路協同仿真資料集 OPV2V, V2X-SIM,以及車路協同真實資料集 DAIR-V2X。對比的基線方法包括基本的單體探測(NoCollaboration),基於邊界框的後融合(LateFusion),When2com(CVPR 2020),V2VNet(ECCV 2020),DiscoNet(NeurIPS 2021),V2X-VIT(ECCV 2022)。

Where2comm在四個資料集上實現感知-通訊權衡的大幅提升
他們發現,為達到同樣的探測效果,Where2comm(紅線)所需要的通訊頻寬消耗在CoPerception-UAVs,OPV2V,V2X-SIM,DAIR-V2X四個資料集上分別減少了 5128 倍,十萬倍,55 倍,以及 105 倍。值得注意的是,之前的基線方法都是針對某個特定通訊量進行了有針對性的模型訓練,因此每個方法在通訊量 – 探測效果的圖中是一個單點。而 Where2comm 可以自動調整和適應各個通訊量,因此是一條曲線。由此可見,Where2comm 實現了感知效果與通訊消耗的有效權衡,能自適應資源多變的通訊環境,且在達到相同的感知效果的同時,極大地降低了通訊消耗。
進一步地,他們引入了多輪通訊的機制。可以看到增加通訊輪數,能穩定地進一步提升感知效果與通訊消耗的權衡,保障協作感知系統內的協作者們無後顧之憂地積極參與協作。

Where2comm在多輪通訊下的感知效果與通訊消耗的權衡
通訊高效協作感知方法的核心思想:挖掘感知資訊空間分佈的異構性
Where2comm 為何能穩定地獲得如此大的性能提升?這得益於充分挖掘了感知資訊的空間異構性和稀疏性。以目標檢測為例,每個智慧體更為關注空間中包含目標的前景區域,大量背景資訊則無關緊要,因此感知資訊在空間分佈上存在顯著的異構性。同時,資訊的重要程度可通過包含前景目標的可能性來度量。受此啟發,Where2comm 在多智慧體間傳遞空間上稀疏但關鍵的資訊,以此來實現更好的感知效果和通訊消耗的權衡,同時通過多輪通訊向其他智慧體請求補充資訊,以執行高效和互利的協作。

通過無人機2傳遞的稀疏但有效的資訊(圖h),無人機1在被建築遮擋的視角盲區內得以實現有效感知
最佳化問題定義
Where2comm 背後的設計思路是基於一個基本的數學最佳化。考慮一個有 N 個智慧體的場景,研究者將

和

分別設為第 i 個智慧體對場景的觀察以及感知的監督資訊,則協作感知的目標是:在頻寬 B 和通訊輪次 K 的約束下,實現所有智慧體的感知性能的最大化。

其中 g(⋅,⋅)感知性能的度量指標,Φ是參數為θ的感知網路,

是第 i,j 智慧體之間傳遞的訊息,k 是通訊輪次。Where2comm 希望在最佳化的過程中能夠讓模型在不同的通訊條件下都能夠實現最優性能,同時,每個智慧體都同時作為支持者和請求者參與協作過程。後續的方法設計正是針對這一最佳化問題的具體解法。
主框圖介紹

Where2comm系統框圖
Where2comm 的整體系統包括編碼器,空間置信度生成器,空間置信度感知的協作通訊,協作資訊融合以及檢測解碼器組成。研究者著重介紹空間置信度生成器,基於空間置信度圖的通訊以及協作資訊融合三個部分。
空間置信度生成器:空間置信度圖反映的是不同空間位置處的資訊對感知任務的重要程度。直覺上說,對於一個感知任務而言,具有待檢測物體的區域顯然比背景區域更為重要。協作中,有物體的區域可以幫助恢復由於視角受限等原因丟失的物體,同時可以將背景區域的感知資訊移除以節省寶貴的通訊頻寬。因此,研究者可以用檢測置信圖來生成空間置信圖,有高概率存在物體的空間區域則獲得更高的置信度評分。
基於空間置信度圖的資訊打包 (協作什麼內容):基於空間置信度圖可以高效地構建協作資料包,其包含兩個部分:空間請求圖和稀疏但有效的特徵。空間請求圖用於高效地有針對性地向外界請求有效資訊,而發送的特徵則是接收者需要且當前智慧體擁有的特徵資訊。
基於空間置信度圖的通訊圖構建 (誰和誰協作):在第一輪協作中,由於系統中的智慧體均不清楚其餘協作者的存在,為了激活協作過程,首先需要建立一次全連接的通訊。每個智慧體都需要將資訊廣播至希望參與協作的智慧體。後續的通訊輪次將根據每個智慧體的請求圖和自身的空間置信度圖來判斷是否需要進一步通訊。只有雙方有有效的資訊需求時才構建通訊。
基於空間置信度圖的資訊融合 (怎麼融合協作資訊):每個智慧體利用 multi-head attention 操作,在每個空間位置上融合來自其他協作者的資訊包,來更新自身的感知資訊,實現更全面更有效的感知。
總結與展望
Where2comm 聚焦在協作感知的感知關鍵的空間區域選區中,在未來,這種思路可以被廣泛應用於時域的關鍵幀選取等諸多方面。同時,也期待更多特徵維度壓縮以及 Emergent communication 的工作可以針對協作感知場景進行特殊設計,進一步減少頻寬佔用,提升感知效率以及通用型和魯棒性。