「鯨臉識別」已上線,夏威夷大學用 5 萬張圖像訓練識別模型,平均精度 0.869

內容一覽:臉部辨識可以鎖定人類身份,這一技術延申到鯨類,便有了「背鰭識別」。「背鰭識別」是利用圖像識別技術,通過背鰭識別鯨類物種。傳統的圖像識別依賴於卷積神經網路 (CNN) 模型,需要大量訓練圖像,並且只能識別某些單物種。近期,夏威夷大學的研究人員訓練了一種多物種圖像識別模型,該模型在鯨類應用中表現出色。

關鍵詞:圖像識別 鯨類動物 ArcFace

作者|daserney

編輯|緩緩、三羊

鯨類動物是海洋生態系統的旗艦動物和指示性生物,對於保護海洋生態環境具有極高的研究價值。傳統的動物身份識別需要對動物進行現場拍攝,記錄個體出現的時間和位置,包含許多步驟,過程繁雜。其中又以圖像匹配——在不同圖像中識別出同一個體尤為耗時。

2014 年 Tyne 等人展開的一項研究估計,在對斑海豚 (Stenella longirostris) 進行為期一年的捕捉和釋放調查中,圖像匹配耗費了超過 1100 個小時的人力勞動,幾乎佔據了整個項目總經費的三分之一

近期,來自夏威夷大學 (University of Hawai‘i) 的 Philip T. Patton 等研究人員,利用 5 萬多張照片(包括 24 種鯨類動物、39 個目錄),訓練了基於臉部辨識 ArcFace Classification Head 的多物種圖像識別模型。該模型在測試集上達到了 0.869 的平均精確率 (MAP)。其中,10 個目錄的 MAP 得分超過 0.95。

目前該研究已發佈在《Methods in Ecology and Evolution》期刊上,標題為「A deep learning approach to photo–identification demonstrates high performance on two dozen cetacean species」。

該研究成果已發表在

該研究成果已發表在

《Methods in Ecology and Evolution》

論文地址:

https://besjournals.onlinelibrary.wiley.com/doi/full/10.1111/2041-210X.14167

資料集:25 個物種、39 個目錄

資料介紹

Happywhale 和 Kaggle 與全球研究人員協作,組建了一個大規模、多物種的鯨類資料集。該資料集是為 Kaggle 競賽收集的,要求參賽團隊從背鰭/側身的圖像中識別個體鯨目動物。資料集包含25 個物種 (species) 的41 個目錄 (catalogues),每個目錄包含一個物種,其中有些目錄中的物種會重複出現。

該研究去掉了兩個競賽目錄,因為其中一個只有 26 張用於訓練和測試的低畫質圖像,而另一個目錄則缺少測試集。最終的資料集包含 50,796 張訓練圖像和 27,944 張測試圖像,其中,50,796 張訓練圖像包含 15,546 個身份 (identities)。在這些身份中,9,240 個 (59%) 只有一張訓練圖像,14,210 個 (91%) 有 5 張以內訓練圖像。

資料集及程式碼地址:

https://github.com/knshnb/kaggle-happywhale-1st-place

訓練資料

為了解決圖像背景複雜的問題,一些參賽者訓練了圖像裁剪模型,可以自動檢測圖像中的鯨類動物,並在其周圍繪製邊界框。下圖中可以看出,這一流程包括 4 個鯨類檢測器,使用了YOLOv5 和 Detic 在內的不同演算法,檢測器的多樣性增加了模型的魯棒性,並且能對實驗資料進行資料增強。

圖 1:競賽集中 9 個目錄的圖像

圖 1:競賽集中 9 個目錄的圖像

以及 4 個鯨類檢測器生成的邊界框

每個邊界框生成的裁剪的概率為:紅色為 0.60,橄欖綠為 0.15,橙色為 0.15,藍色為 0.05。裁剪後,研究人員將每個圖像的大小調整為 1024 x 1024 像素,以與 EfficientNet-B7 backbone 兼容。

調整大小後,應用仿射變換、調整大小和裁剪、灰度、高斯模糊等資料增強技術,避免模型出現嚴重過擬合。

資料增強是指在訓練過程中對原始資料進行變換或擴充,以增加訓練樣本的多樣性和數量,從而提高模型的泛化能力和魯棒性。

模型訓練:物種 & 個體識別雙管齊下

下圖顯示了模型的訓練流程,如圖中橙色部分所示,研究人員將圖像識別模型分為 3 個部分:backbone、neck 和 head。

圖 2:多物種圖像識別模型訓練 Pipeline

圖中第一行是預處理步驟(以普通海豚 Delphinus delphis 圖像為例),由 4 個目標檢測模型生成 crops,資料增強步驟生成兩個示例圖像。

最下面一行則顯示了圖像分類網路的訓練步驟,從 backbone 到 neck 再到 head。

圖像首先通過網路進入 backbone。過去十年的一系列研究已經產生了數 10 種流行的 backbone,包括 ResNet、DenseNet、Xception 和 MobileNet。經驗證,EfficientNet-B7 在鯨類應用中表現最佳。

Backbone 獲取圖像後,通過一系列卷積層和池化層對其進行處理,從而生成圖像的簡化三維表示。Neck 將此輸出減少為一維向量,又稱為特徵向量。

兩個 head 模型,都將特徵向量轉換為類概率,即 Pr(species) 或 Pr(individual),分別用於物種識別和個體識別。這些 classification heads 被稱為具有動態邊距的次中心 ArcFace,普遍適用於多物種圖像識別場景。

實驗結果:平均精度 0.869

對測試集中的 21,192 張圖像(24 個物種的 39 個目錄)進行預測,獲得了 0.869 的平均精度 (MAP)。如下圖所示,平均精度因物種而異,且與訓練圖像或測試圖像的數量無關。

圖 3:測試集的平均精度

圖 3:測試集的平均精度

頂部面板按用途(即訓練或測試)顯示每個物種的圖像數量。具有多個目錄的物種,則用 x 表示。

圖中顯示,該模型在識別齒鯨 (toothed whale) 時表現較好,而在識別鬚鯨 (baleen whale) 時表現較差,其中只有兩個鬚鯨物種的得分超過了平均水平。

對於多目錄物種,模型性能也存在差異。例如,普通小鬚鯨 (Balaenoptera acutorostrata) 不同目錄之間的 MAP 得分分別為 0.79 和 0.60。其他物種如白鯨 (Delphinapterus leucas) 和虎鯨在不同目錄之間的表現也有較大差異。

對此,研究人員雖然沒有找到能解釋這種目錄級性能差異的原因,但他們發現一些定性指標如模糊度、獨特性、標記混淆、距離、對比度和水花等,可能會影響圖像的精度得分。

圖 4:可能影響目錄級性能差異的變數

圖 4:可能影響目錄級性能差異的變數

圖中每個點代表競賽資料集中的一個目錄,像素表示圖像和邊界框寬度。Distinct IDs 表示訓練集中不同個體的數量。然而,目錄級 MAP 與平均圖像寬度、平均邊界框寬度、訓練圖像數量、不同個體數量以及每個個體的訓練圖像數量之間並沒有明確的關聯。

綜合以上,研究人員提出用該模型進行預測時,代表 7 個物種的 10 個目錄平均精度高於 0.95,性能表現優於傳統預測模型,進而說明使用該模型能正確識別個體。此外,研究人員還在實驗過程中總結出 7 點關於鯨類研究的注意事項:

  1. 背鰭識別表現最佳。

  2. 明顯個體特徵較少的目錄表現不佳。

  3. 圖像質量很重要。

  4. 利用顏色識別動物可能較為困難。

  5. 特徵相對於訓練集差距較大的物種得分較差。

  6. 預處理仍然是一個障礙。

  7. 動物標記變化可能會影響模型表現。

Happywhale:鯨類研究的公眾科學平臺

本文資料集介紹中提到的 Happywhale 是一個分享鯨類圖像的公眾科學平臺,其目標是解鎖大量資料集、促進 photo ID 的快速匹配,併為公眾創造科研參與度。

Happywhale 官網地址

Happywhale 官網地址:

https://happywhale.com/

Happywhale 成立於 2015 年 8 月,其聯合創始人 Ted Cheeseman 是一位博物學家 (Naturalist),他在加利福尼亞蒙特雷灣 (Monterrey Bay) 長大,從小就喜歡觀鯨,曾多次前往南極洲和南喬治亞島探險,具有 20 餘年南極探險及極地旅遊管理的經驗。

Happywhale 聯合創始人 Ted Cheeseman

2015 年,Ted 離開了工作 21 年的 Cheesemans’ Ecology Safaris(由 Ted 父母在 1980 年創辦的生態旅行社,Ted 父母同樣是博物學家),投身 Happywhale 項目–收集科研資料,進一步理解並保護鯨類。

短短几年內,Happywhale.com 已經成為鯨類研究領域的最大貢獻者之一,除鯨類識別圖像的數量巨大外,對理解鯨類的遷徙模式也提供了諸多洞見。

參考連結:

[1]https://baijiahao.baidu.com/s?id=1703893583395168492

[2]https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0086132

[3]https://phys.org/news/2023-07-individual-whale-dolphin-id-facial.html#google_vignette

[4]https://happywhale.com/about

相關文章

深度學習的可解釋性

深度學習的可解釋性

一、深度學習的可解釋性研究概述 隨著深度學習模型在人們日常生活中的許多場景下扮演著越來越重要的角色,模型的「可解釋性」成為了決定使用者是否能...

Transformer,ChatGPT 幕後的真正大佬

Transformer,ChatGPT 幕後的真正大佬

ChatGPT的背後 ChatGPT紅得發紫,強得讓人類心悸。 但在它的背後,還隱藏著一位真正的大佬。 可以說,與它相比,ChatGPT其實...

AI 加碼,超光學進入狂飆時代

AI 加碼,超光學進入狂飆時代

內容一覽:近年來,為了突破傳統光學研究的侷限性,光學與物理學交叉領域的一個新興技術超光學出現,並且展現出巨大的市場前景。在這門技術高速發展的...