把老虎標成猴子,把青蛙標成貓,把碼頭標成紙巾……MIT、Amazon 的一項研究表明,ImageNet 等十個主流機器學習資料集的測試集平均錯誤率高達 3.4%。

我們平時用的機器學習資料集存在各種各樣的錯誤,這是一個大家都已經發現並接受的事實。為了提高模型準確率,有些學者已經開始著手研究這些資料集中的錯誤,但他們的研究主要集中在訓練集,沒有人系統研究過機器學習測試集的誤差。
眾所周知,測試集是我們拿來衡量機器學習模型性能的基準。如果測試集錯誤百出,我們得到的性能資料也會存在很大偏差。
在一篇新論文中,麻省理工 CSAIL 和亞馬遜的研究者對 10 個主流機器學習資料集的測試集展開了研究,發現它們的平均錯誤率竟高達 3.4%。其中,最有名的 ImageNet 資料集的驗證集中至少存在 2916 個錯誤,錯誤率為 6%;QuickDraw 資料集中至少存在 500 萬個錯誤,錯誤率為 10%。

論文連結:https://arxiv.org/pdf/2103.14749.pdf
下圖 1 顯示了各資料集中存在的錯誤示例:

為了向所有人展示這些錯誤,幫助改進資料集,研究者還做了一個專門的歸類網站。

網站地址:https://labelerrors.com/
該網站列出的錯誤主要包括三種類型。第一種是標錯的圖像,如碼頭被標記成紙巾。

第二種是被標錯的文字情感傾向,如亞馬遜的商品評價本來是消極的,但被標成積極的。
第三種是被標錯的 YouTube 視訊的音訊,如愛莉安娜 · 格蘭德的高音片段被標記成口哨。
論文作者在研究中發現了一個有趣的現象:ResNet-18 這類比較簡單的模型錯誤率要低於 ResNet-50 這種更為複雜的模型,這取決於不相關資料(噪聲)的普遍性。因此,作者建議,如果你的資料集標籤錯誤率高達 10%,你可以考慮使用較為簡單的模型。
為了方便大家復現論文結果並在自己的資料集中找到標籤錯誤,研究者還在 GitHub 上開源了他們用到的 Python 包(cleanlab)。

項目地址:https://github.com/cgnorthcutt/cleanlab
參與調查的十大資料集
下表一顯示了研究者本次調查的十個資料集以及它們的測試集錯誤率。

以下是這些資料集的詳細資訊,從它們的標註過程我們看出標籤出錯的一些可能原因:
MNIST
MNIST 資料集是是美國國家標準與技術研究院收集整理的大型手寫數字資料庫,最早是在 1998 年 Yan Lecun 的論文中提出的。該資料集包含了 0-9 共 10 類手寫數字圖片,每張圖片都做了尺寸歸一化,都是 28×28 大小的灰度圖。該資料集的 ground-truth 標籤是通過將數字與任務的指令相匹配來確定的,以便於複製一組特定的數字。標籤錯誤可能是由於未遵循該資料集的相關說明和手寫歧義引起的。

CIFAR-10 和 CIFAR-100 資料集
CIFAR-10 和 CIFAR-100 資料集分別由 10 類和 100 類 32 × 32 圖像組成。這兩個資料集通過在網際網路上搜尋類別標籤來收集圖像。人工標記時通過過濾掉標籤錯誤的圖像,來選擇與類別標籤匹配的圖像。標記器僅根據圖像中最突出的一個實例來賦予標籤,其中允許該實例有部分遮擋。

Caltech-256
Caltech-256 資料集是一種包含圖像和類別的資料集,其中的圖像是從圖像搜尋引擎中抓取的,人工標記時將圖像評定為 good、bad 和 not applicable,從資料集中過濾掉遮擋過度、混亂,以及非物體類別示例的圖像。

ImageNet
ImageNet 資料集是機器學習研究中最常用的資料集之一。該資料集通過在幾個圖像搜尋引擎上查詢 WordNet 同義詞集(synset)中的單詞來抓取圖像。這些圖像由 Amazon Mechanical Turk 的工作人員標記,他們要檢查這些圖像是否包含特定同義詞集中的對象,過濾掉對象混亂、遮擋過度的圖像,並確保資料集的圖像多樣性。

QuickDraw
QuickDraw 塗鴉資料集是一個包含 5000 萬張圖畫的集合,分成了 345 個類別,這些圖畫都來自於 Quick, Draw! 遊戲的玩家。這些圖像帶有一些元資料標註,包括玩家被要求繪畫的內容等。該資料集可能存在圖像不完整、標籤不匹配等情況。

20news
20 Newsgroups 資料集是由發佈到 Usenet 新聞組的文章的集合,一共涉及 20 種話題。該資料集常被用於對文字分類和聚類圖像模型進行基準測試。其中每個樣本的標籤是最初發布的新聞組(例如 misc.forsale),該標籤可以在資料收集過程中獲得。
IMDB
IMDB 大型影評資料集是情感分類資料集,用於二元情感分類。其中的標籤是由使用者的評價決定的:滿分 10 分,分數≤ 4 被視為否定,分數≥ 7 被視為肯定。

評價中表示這是一部值得看的作品,但 IMDB 資料集給出的標籤是負面的。
Amazon Reviews
Amazon Reviews 資料集是來自亞馬遜客戶的文字評價和 5 星級評級的集合,通常被用於基準情感分析模型。
AudioSet
AudioSet 資料集包含 632 類音訊類別以及 2084320 條人工標記的每段 10 秒長度的聲音剪輯片段(片段來自 YouTube 視訊),被稱為聲音版 ImageNet。研究者指出一些標籤錯誤是因為標籤混亂、人為錯誤以及音訊檢測差異造成的。
如果測試集錯誤太多,大模型未必好用
在估計了各個測試集的錯誤率之後,研究者利用 ImageNet 和 CIFAR-10 作為案例研究了測試集標籤錯誤對基準穩定性造成的影響。
雖然這些基準測試資料中存在很多錯誤標籤,但研究者發現,在移除或修正這些錯誤之後,基準中的模型相對排名並沒有受到影響。但他們也發現,這些基準結果是不穩定的:與參數較少的模型(如 ResNet-18)相比,容量較大的模型(如 NasNet)在預測結果中更加能夠反映這些系統性標籤錯誤的分佈,而且這種效應隨著測試標籤錯誤普遍性的增加而變得更加明顯。
這不是傳統的過擬合。更大的模型能夠更好地泛化至測試資料中給定的噪聲標籤,但這是有問題的,因為在標籤修正之後的測試資料上進行評估時,這些模型給出的預測結果比不上那些容量較小的模型。
在存在大量標註錯誤的現實世界資料集中,小容量模型可能比大容量模型更有用。舉個例子,從基於原始給定標籤的測試準確率來看,NasNet 似乎要優於 ResNet-18,但如果用標籤修正之後的測試集進行測試,NasNet 的準確率其實比不上 ResNet-18。由於後者在現實中更為重要,在這種情況下,我們在現實中部署的也應該是 ResNet-18,而不是 NasNet。
為了評估流行預訓練模型的基準如何變化,研究者隨機並遞增地刪除正確標記樣本,每次刪除一個,直到只剩下一組原始的被錯誤標記的測試資料(標籤得到糾正)。藉助這種方法,他們只刪除了 6% 的正確標記測試樣本就讓 ResNet-18 的表現超越了 ResNet-50。
該研究表明,如果著手糾正測試集中的標籤錯誤或在資料集噪聲較多時使用較小 / 較簡單的模型,ML 從業者可能會從中受益。當然,你首先要確定你的資料集噪聲是不是真的有那麼大,判斷方法可以在論文中找到。
參考連結:https://www.csail.mit.edu/news/major-ml-datasets-have-tens-thousands-errors