經過8萬畫作+人工註釋訓練,演算法學會了賞析名畫

內容提要:藝術作品往往寄託著作者內心的情感,人們欣賞一支樂曲、一幅畫作,也會產生情感共鳴。計算機又能否理解藝術畫作中的情感?史丹佛大學的研究團隊正在開發這一演算法。

關鍵詞:視覺藝術 圖像理解 ArtEmis 資料集

列夫·托爾斯泰說過:「藝術是一種人類活動,一個人通過某種外在符號,有意識地把自己經歷過的感受傳達給別人,而別人也會被這些感受所感染,真切地體驗到這些感受。」

以藝術畫作為例,每一幅作品的背後,都蘊藏著畫家的某種情感。梵高、畢加索等著名畫家,都曾在不同創作時期,通過不同色彩、構圖等,表達自己當時所特有的心境與情緒。

梵高的向日葵與畢加索的《老吉他手》

梵高的《向日葵》與畢加索的《老吉他手》

計算機能否理解這些藝術畫作中所蘊含的感情色彩呢?史丹佛大學的電腦科學研究團隊,收集了一個名為 ArtEmis 的新資料集,包含大量的藝術畫作及人工標註的相應情感體驗,並訓練出能夠對視覺藝術產生情感反應的計算機模型。

理解畫作,從情感標記資料集開始

WikiArt:線上名畫博物館

非營利性的志願項目 WikiArt,自 2010 年上線至今,收錄了來自世界各地的視覺藝術作品,堪稱大型線上名畫博物館。

據該網站資料顯示,截至 2020 年 1 月,該網站共收錄來自 3293 位藝術家的 169057 件畫作,包括 61 個流派。

WikiArt 主頁展示,作品可按流派、風格、

或藝術家國籍、所處年代等分類檢索

WikiArt 上面畫作數量龐大、分類清晰,因此也成為許多 AI 領域研究者用來訓練演算法的資料集。

2015 年,羅格斯大學與 Facebook AI 實驗室的研究人員,合作開發了 GAN(生成對抗網路),就在 WikiArt 資料上對其進行了訓練,讓 GAN 能夠區分不同風格的藝術。

ArtEmis:誕生於 WikiArt 的新資料集

史丹佛大學團隊則基於 WikiArt 上的作品,創建了一個新的視覺藝術標註資料集 ArtEmis。

他們對 WikiArt 上 1119 位藝術家的 81446 件藝術作品,一一進行了標註。這些作品包括從 15 世紀創作的藝術作品,到 21 世紀創作的現代美術畫,涵蓋了 27 種藝術風格(抽象、巴洛克、立體主義、印象主義等)和 45 種流派(城市景觀、風景、肖像、靜物等),給觀眾帶來非常多樣化的視覺衝擊。

其中,每個作品要求至少 5 個標註者,寫出他們看到這幅畫作時的主導情緒,並解釋產生這種情緒的原因。

具體來說,要求標註者在觀察一件藝術品後,先從 8 種基本情緒狀態(憤怒、厭惡、恐懼、悲傷、娛樂、敬畏、滿足和興奮)中,選一種自己所感受到的主要情緒,如果以上 8 種情緒都不是,也可以標註「其它」。

標註了情緒感受之後,標註者需要再用文字,進一步解釋自己為什麼產生這種感覺,或者為什麼沒有任何強烈的情緒反應。

以下為人工標註者為畫作標註的情感標籤,以及詳細解釋(左滑可查看更多):

這份標註工作最終由亞馬遜眾包平臺的 6377 名標註者完成,總共耗時 10220 個小時。

團隊表示,與其他現有同類資料集相比,ArtEmis 的標註使用了更加豐富、感性且多樣化的語言,這些標註形成的語料庫,共包含了 36347 個不同的詞語。

ArtEmis 資料集

視覺藝術的情感標記資料集

發佈機構:史丹佛大學,巴黎綜合理工學院以及阿卜杜拉國王科技大學

包含數量:共 439121 條畫作標註

資料格式:csv

資料大小:21.8 MB

地址:https://hyper.ai/datasets/14861

一個可感知情感的演算法,是怎樣煉成的

為了讓計算機也能夠像人類一樣,對視覺藝術產生情感反應,並用語言證明產生這些情感的原因,團隊基於這一大規模資料集,訓練了一個 Neural Speaker(神經表達者)。

史丹佛大學 HAI 學院的教授 Guibas 表示,這是計算機視覺領域中一項新的探索。此前經典的計算機視覺方法,往往是指出圖像中有哪些內容,比如:有三隻狗;有人正在喝咖啡……而他們的這項工作,則是定義視覺藝術中的情感。

經過 ArtEmis 資料集訓練之後,演算法識別出不同的畫作中蘊含的情感,並自動生成了這樣判斷的依據,示例結果如下(左滑可查看更多):

論文中介紹了具體訓練思路。首先,用 ArtEmis 來訓練模型,實現藝術畫作的情感解釋問題。這屬於經典的 9 路文字分類問題,團隊使用基於交叉熵的最佳化,應用於從頭開始訓練的 LSTM 文字分類器,同時也考慮對為這個任務預訓練的 BERT 模型進行微調。

另外,讓計算機對人類通常會對作品產生的情緒反應進行預測。

為了解決這個問題,團隊將輸出和 ArtEmis 使用者標註之間的 KL-分歧最小化,以此對基於 ImageNet 的預訓練 ResNet32 編碼器進行微調。

對於給定的一幅畫作,分類器先判斷其傳達的情感是積極還是消極,再進一步判斷具體是哪種情感。

團隊介紹,對於一幅畫作,演算法不僅能夠感知整體的情感色彩,還能區分畫中不同人物的感情。以這幅倫勃朗的《被斬首的聖施洗者約翰》為例,AI 演算法不僅捕捉到了被斬首的約翰的痛苦,還感知到了畫中被獻首的女性莎樂美的「滿足」。

演算法對《被斬首的聖施洗者約翰》生成的情感標註

當演算法擁有了共情能力

人類的情感非常豐富且複雜微妙,即使是我們人類自己,也並不能百分之百理解某些藝術家想要表達的心情,所以,要讓 AI 精準地理解藝術家的意圖,目前必然還存在一定挑戰。

不過,此次 ArtEmis 資料集的發佈,已經讓 AI 在處理圖像情感屬性方面,邁出了第一步。

團隊表示,待進一步研究與改進之後,演算法或許能夠感知人類的悲歡,藝術家便可藉助演算法,評估自己的作品是否能達到預期的情感表達效果。另外,一旦演算法能通人性,人機互動的過程也將更加自然、和諧。

新聞來源

新聞來源:

https://techxplore.com/news/2021-03-artist-intent-ai-emotions-visual.html

資料集論文:https://arxiv.org/pdf/2101.07396.pdf

項目主頁:https://www.artemisdataset.org/#videos

相關文章

微軟亞研院:Language Is Not All You Need

微軟亞研院:Language Is Not All You Need

魚羊 發自 凹非寺 還記得這張把GoogleAI搞得團團轉的經典梗圖嗎? 現在,微軟亞研院的新AI可算是把它研究明白了。 拿著這張圖問它圖裡...

我一個插畫師給AI打下手,月入3千

我一個插畫師給AI打下手,月入3千

楊淨 蕭簫 發自 凹非寺 量子位 | 公眾號 QbitAI AI生成厲害到什麼程度?現在人類已經在為它打下手了。 據一位畫手網友分享,他們圈...