重新標註128萬張ImageNet圖片:多標籤,全面提升模型性能

機器之心報道,作者:杜偉、魔王

自發布以來,ImageNet 資料集逐漸成為機器學習社區最流行的圖像分類基準,但 ImageNet 自身存在著標籤噪聲,以及單標籤標註屬性與多類別樣本之間的不匹配。所以在本文中,韓國 Naver AI 實驗室提出了一種新穎的重新標註策略以及一個基於額外源資料的強大圖像分類器,通過該策略訓練的 ResNet 等多種架構都實現了性能提升。

ImageNet 是機器學習社區最流行的圖像分類基準資料集,包含超過 1400 萬張標註圖像。該資料集由史丹佛教授李飛飛等人於 2006 年開始創建,後成為評估計算機視覺模型在下游視覺任務中能力的試金石。

然而 ImageNet 並不完美,其標籤存在大量噪聲。近期多項研究表明,該資料集中許多樣本包含多個類別,而 ImageNet 本身是一個單標籤基準資料集。一些研究者提出將 ImageNet 轉換為多標籤任務評估基準,但是可能是由於標註成本過高,他們並未修復訓練集

在近日發佈的一篇論文中,來自韓國 NAVER AI LAB 的研究者認為,在應用了隨機剪裁的訓練設置下,單標籤標註和高效多標籤圖像之間的不匹配帶來了同等問題。在使用單標籤標註時,圖像隨機剪裁可能包含與真值完全不同的對象,為訓練帶來噪聲甚至不準確的監督信號。

為此,這些研究者決定使用多標籤對 ImageNet 訓練集進行重新標註:他們在額外的資料來源上訓練了一個強大的圖像分類器,使用其生成多標籤,解決了標註成本問題;在最終池化層之前使用像素級多標籤預測,以充分利用額外的位置特定監督信號。

原始 ImageNet 標籤(左上)與本文 ReLabel 標註器的效果對比。

基於重新標註樣本的訓練可以全面提升模型性能。例如,使用該研究提出的局部多標籤後,ResNet-50 在 ImageNet 上的 top-1 分類準確率達到 78.9%,使用 CutMix 正則化後還可以進一步提升至 80.2%。實驗表明,使用局部多標籤訓練的模型在遷移至目標檢測和實例分割任務以及多種穩健性基準時,性能優於基線方法。

此外,研究者還開源了重新標註的 ImageNet 訓練集、預訓練權重和源程式碼。

  • 論文地址:https://arxiv.org/pdf/2101.05022.pdf
  • GitHub 地址:https://github.com/naver-ai/relabel_imagenet

方法

這項研究提出了一種重新標註(re-labelling)策略 ReLabel,以在 ImageNet 訓練集上獲得像素級真值標籤。標籤對映((label map))具有兩個特徵:多類別標籤和局部標籤。研究者使用機器標註器(machine annotator)獲得標籤對映,該標註器是在額外源資料上訓練的 SOTA 圖像分類器。研究者介紹瞭如何獲得標籤對映,並提出了一個新穎的訓練框架 LabelPooling,以使用這類局部多標籤訓練圖像分類器。

重新標註 ImageNet

研究者從機器標註器中獲得密集真值標籤,從這類模型中獲得的預測可能接近於人類預測。由於訓練機器標註器需要訪問專有訓練資料並在 GPU 或 TPU 上訓練數百天,所以研究者採用開源訓練權重作為機器標註器。

機器標註器如下圖 4 所示:

機器標註器如下圖 4 所示

研究者注意到,儘管機器標註器在 ImageNet 上使用單標籤監督(softmax 交叉熵損失)進行訓練,但它們仍然傾向於對多類別圖像進行多標籤預測。所以,如果資料集中存在大量的標籤噪聲,則利用單標籤交叉熵損失訓練的模型傾向於預測多標籤輸出。

此外,利用分類器獲取標籤還有一個好處:提取位置特定的標籤。研究者移除了分類器的全局平均池化層,並將接下來的線性層轉化為 1×1 的卷積層,從而將該分類器轉化為一個全卷積網路。然後,模型的輸出成為 f(x) ∈ R^W×H×C。研究者將該輸出 f(x) 作為標籤對映標註 L ∈ R^W×H×C。

利用密集多標籤訓練分類器

在獲得上述密集多標籤 L ∈ R^W×H×C 之後,接下來需要考慮如何利用它們訓練分類器。對此,研究者提出了一種新穎的訓練方案 LabelPooling,它將局部真值考慮了進來。下圖 3 展示了 LabelPooling 和原始 ImageNet 訓練之間的區別:

在標準 ImageNet 訓練設置下,隨機剪裁的監督信號來自於每張圖像的單標籤真值。另一方面,LabelPooling 會載入預計算的標籤對映,並在標籤對映上執行與隨機剪裁座標相對應的區域池化操作。研究者採用了 RoIAlign 區域池化方法。

此外,研究者在池化預測圖上執行全局平均池化和 softmax 操作,以獲得多標籤真值向量。最後,研究者使用了交叉熵損失。

ReLabel 的偽程式碼

ReLabel 的偽程式碼。

實驗

ImageNet 分類

為了驗證 ReLabel 的效果,研究者使用不同的網路架構和評估指標(包括近期提出的多標籤評估指標)執行 ImageNet 分類任務。他們在包含 128 萬訓練圖像和 5 萬驗證圖像的 ImageNet-1K 基準上評估 ReLabel 策略。對於所有模型,他們均使用標準資料增強技術,如隨機剪裁、翻轉、色彩抖動。

與其他標籤操縱方法的對比:研究者對比了 ReLabel 與之前那些直接調整 ImageNet 標籤的方法,使用的模型是 ResNet50。結果參見下表 3:

在不同網路架構上的結果:研究者使用 ReLabel 訓練了多個不同架構(包括 ResNet-18、ResNet101、EfficientNet-{B0,B1,B2,B3}、ReXNet),表明 ReLabel 可用於具備不同訓練機制的多種網路。下表 4 展示了實驗結果,從中可以看出,ReLabel 持續提升不同網路架構的性能,例如將 EfficientNet-B3 的準確率從 81.7% 提升至 82.5%。

SOTA 性能:ReLabel 對實現最優性能的其他訓練技巧起到補充作用,例如將 CutMix 正則化與 ReLabel 結合起來。研究者在隨機剪裁圖像上執行 CutMix,然後根據 CutMix 演算法將池化標籤進行混合。實驗結果參見下表 5:ReLabel + CutMix 在以 ResNet-50 和 ResNet-101 作為主幹模型的情況下,均取得了 SOTA ImageNet top-1 準確率。

遷移學習

遷移學習

研究者還檢驗了 ReLabel 帶來的 ImageNet 性能改進能否遷移至不同的下游任務,展示了在五個細粒度分類任務、目標檢測與實例分割任務上的結果。

細粒度分類任務:研究者在五個細粒度分類任務(Food-101、Stanford Cars、DTD、FGVC Aircraft 和 Oxford Pets)上評估了使用 ReLabel 預訓練的 ResNet-50 的性能。實驗結果參見下表 8:

目標檢測與實例分割:研究者分別使用具備特徵金字塔網路的 Faster-RCNN 和 Mask-RCNN 作為目標檢測和實例分割任務的 base 模型。Faster-RCNN 和 Mask-RCNN 的主幹網路基於 ReLabel 預訓練的 ResNet-50 模型進行初始化,然後使用原始訓練策略在 COCO 資料集上進行微調。實驗結果參見下表 9:

多標籤分類

多標籤分類

多標籤訓練常用隨機剪裁作為資料增強方式,在這種情況下,ReLabel 和 LabelPooling 可以提供額外的局部監督信號,幫助改善原始多標籤訓練集。研究者使用多標籤分類資料集 COCO 進行實驗,然後使用基於標籤對映的 LabelPooling 訓練多標籤分類器。

下表 10 展示了實驗結果:使用 ReLabel 和機器生成的標籤地圖後,ResNet-50 和 ResNet-101 的 mAP 分別增長了 3.7 pp 和 2.4 pp;使用 oracle 標籤地圖後,二者的 mAP 分別增長了 4.2 pp 和 4.3 pp。

AAAI 2021線上分享 | 基於知識增強,百度新型視覺-語言預訓練模型ERNIE-ViL取得多項任務SOTA

在百度被AAAI 2021接收的論文《ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph》中,研究者們提出了一種基於知識增強的視覺-語言預訓練技術,基於場景圖知識構建了場景圖預測任務,從而學習到刻畫細粒度語義對齊的聯合表示,在視覺問答、視覺常識推理等五個多模態典型任務上取得了 SOTA 效果,並取得視覺常識推理 VCR 榜單的第一名。

相關文章