ChatGPT背後的標註人:在非洲只管「鑑黃」,時薪不到兩美元

最先進的 AI 技術,背後還是原始的勞動。

ChatGPT 是去年熱度最高的科技創新之一,這種強大的人工智慧幾乎可以生成任何主題的文字,既可以與人對話聊天,也會程式設計、參與考試、寫詩搞藝術,在上線一週的時間內就擁有了上百萬使用者。

在 ChatGPT 一炮而紅之後,OpenAI 現在正在與投資者談判估值 290 億美元的融資,其中微軟要投 100 億美元。如果這次融資成功,OpenAI 將成為世界上最有價值的人工智慧公司之一。

然而成功的故事不止有技術天才和資金,美國《時代》雜誌最近的一項調查發現,為訓練 ChatGPT,OpenAI 使用了每小時收入不到兩美元的肯亞外包勞工。

在 AI 模型訓練過程中使用人工標註非常重要,特別是對於 ChatGPT 這樣的語言模型,如果不加規制,AI 經常會出口成髒,性別歧視或者發表種族主義言論。這是因為人工智慧接受的是從網際網路上收集的數千億個單詞的訓練。

龐大的訓練資料集是 GPT-3 擁有強大語言能力的原因,但也可能是它揹負的最大詛咒。網際網路在擁有知識的同時也存在惡意和偏見的內容,沒有什麼清除訓練資料負面部分的簡單方法,即使是一個由數百人組成的團隊也需要數十年的時間才能手動瀏覽龐大的資料集。只有通過建立一個額外的人工智慧驅動的安全機制,OpenAI 才能控制這種危害,生產出適合日常使用的聊天機器人。

為了構建這樣的系統,OpenAI 借鑑了 Facebook 等社交媒體公司的做法,思路很簡單:構建一個額外的 AI 模型,向它提供帶有暴力、仇恨言論等標籤的示例,讓它學會識別有害內容。該檢測器會被內建到 ChatGPT 中,以檢測輸出內容是否反映了其訓練資料的問題,並在它到達使用者之前將其過濾掉。它還可以幫助人們給未來 AI 模型的訓練資料集中清除有毒文字。

為了獲得這些標籤,OpenAI 在 2021 年 11 月開始向肯亞的一家外包公司發送了數萬個文字片段。其中大部分文字似乎是從網際網路最黑暗的角落提取的。其中一些以生動的細節描述了各種情況。OpenAI 在肯亞的外包合作伙伴是 Sama,這是一家總部位於舊金山的公司,在肯亞、烏干達和印度僱用員工為Google、Meta 和微軟等矽谷客戶標記資料。

Sama 將自己定位為一家「有道德的」AI 公司,並聲稱已幫助超過五萬人擺脫了貧困。

根據資歷和表現,Sama 代表 OpenAI 僱用的資料標註員的實得工資約為每小時 1.32 美元至 2 美元。對於這個故事,時代週刊審查了數百頁 Sama 和 OpenAI 的內部檔案,包括員工的工資單,並採訪了參與該項目的四名 Sama 員工。出於對生計的擔憂,所有人都不願透露姓名。

為 AI 做標註是個體力活,此前這種工作時而會被媒體報道,在模型體量不斷膨脹的當前,為 ChatGPT 進行標註的故事讓我們得以感受到 AI 領域另一面的現狀,它在使 AI 技術能為公眾使用的過程中發揮了至關重要的作用。

「儘管這些資料人員發揮了基礎性作用,但越來越多的研究揭示了這些工人面臨的不穩定工作條件,」OpenAI 所屬的 AI 組織聯盟 the Partnership on AI 表示。「這可能是在慶祝技術效率提升時試圖隱藏 AI 對龐大勞動力的依賴的結果。」

OpenAI 沒有透露與它合作的外包商的名字,我們也不清楚除 Sama 之外,OpenAI 是否與其他資料公司在此項目上合作過。

在一份聲明中,OpenAI 的一位發言人證實了肯亞的 Sama 員工為其正在構建的一種檢測有害內容的工具做出了貢獻,且該工具最終被內建到 ChatGPT 中。該聲明還表示,這項工作有助於從 ChatGPT 等工具的訓練資料集中刪除有害資料。「我們的使命是確保通用人工智慧造福全人類,我們努力構建安全可用的人工智慧系統,限制偏見和有害內容,」發言人表示。「對有害『文字和圖像』進行分類和過濾,是減少訓練資料中包含暴力和色情內容數量以及創建可檢測有害內容的工具的必要步驟。」

雖然目前科技領域因為經濟低迷預期增長速度有所放緩,但投資者仍在競相向 AIGC(智慧內容生產)投入大量資金和精力,OpenAI 是科技行業中無可爭議的領導者。人們樂觀地估計認為,計算機生成的文字、圖像、視訊和音訊將改變無數行業的運行方式,從而提高從創意藝術、法律到計算機程式設計等各個領域的效率。

然而,資料標註員的工作條件揭示了這幅未來圖景的陰暗面:儘管 AI 實現了突破,但它往往依賴於低價的人力勞動,而這些勞動往往具有破壞性和剝削性。即使他們的工作為價值數十億美元的行業做出貢獻,這些隱形工人仍然處於邊緣地位。

一位負責為 OpenAI 閱讀和標記文字的 Sama 工作人員表示,他在閱讀了一些需要標註的負面內容後反覆出現幻覺。「那是一種折磨,」他說。「整個星期你都會讀到很多這樣的內容。到週五的時候,你會因為想那張照片而感到不安。」這項工作的創傷性最終導致 Sama 在 2022 年 2 月取消了其為 OpenAI 所做的所有工作,比計劃提前了八個月。

Sama 簽約的合同

媒體調查顯示,OpenAI 在 2021 年底與 Sama 簽署了三份總價值約 20 萬美元的合同,為性虐待、仇恨言論和暴力的文字描述添加標籤。三十餘名工人被分成三個小組專注於每個主題。三名員工告訴時代週刊,他們預計每 9 小時輪班閱讀和標記 150 至 250 段文字。這些片段的範圍從大約 100 個單詞到 1000 詞不等。四名被採訪者均描述了這項工作在精神上留下的傷痕。雖然他們有權參加「健康」顧問的會議,但所有人都表示,由於工作效率的高要求,這些會議沒有幫助而且很少見。

Sama 發言人在一份聲明中表示,員工只能參加小組會議的說法是「不正確的」。發言人說,員工有權與「受過專業培訓並獲得許可的心理健康治療師」進行個人和小組會議。發言人補充說,這些治療師隨時都可以聯繫到。

合同規定,OpenAI 將向 Sama 支付 12.50 美元的小時費率,這是該項目的 Sama 員工每小時帶回家的工資的六到九倍。據 Sama 三名員工稱,代理人是最初級的資料標記員,佔三個團隊的大部分,他們的基本工資為每月 2.1 萬肯亞先令(約 170 美元)。由於工作的明確性,他們每月還會收到價值約 70 美元的獎金,並會因達到準確性和速度等關鍵績效指標而獲得佣金。

一名工作 9 小時輪班的代理人預計稅後每小時總收入至少為 1.32 美元,如果超過所有目標,則最高可達每小時 1.44 美元。質量分析師 —— 更高級的標籤員,他們的工作是檢查代理人的工作 —— 如果他們達到所有目標,他們每小時最多可以賺 2 美元。(肯亞沒有普遍的最低工資標準,但當時這些工人受僱在內羅畢,最低工資是每小時 1.52 美元。)

在一份聲明中,Sama 的一位發言人表示,工人被要求每 9 小時輪班標記 70 篇文字段落,而不是最多 250 篇,而且工人稅後每小時的收入在 1.46 美元到 3.74 美元之間。該發言人拒絕透露哪些職位的薪水會達到該範圍的最高水平。該發言人補充說:「該項目 12.50 美元的費率涵蓋了所有成本,例如基礎設施費用,以及員工及其全職質量保證分析師和團隊負責人的工資和福利。

OpenAI 發言人則在一份聲明中表示,該公司沒有發佈任何生產力目標,Sama 負責管理員工的薪酬和心理健康規定。該發言人補充說:「我們非常重視員工和承包商的心理健康。我們之前的理解是 Sama 提供健康計劃和一對一的心理諮詢,員工可以選擇退出任何工作而不會受到懲罰,暴露露骨內容是有限制的,敏感資訊將由經過專門培訓的員工處理。」

在日常資料標記工作中,有時會出現邊緣案例,這表明教機器理解細微差別的難度很大。

OpenAI 與 Sama 的關係是如何破裂的?

2022 年 2 月,Sama 和 OpenAI 開展了一項合作,但合作過程並不愉快。起初,Sama 為 OpenAI 的一個單獨項目進行試點工作:收集色情和暴力圖像(其中一些根據美國法律是非法的)提供給 OpenAI。其中,標記圖像的工作似乎與 ChatGPT 無關。

OpenAI 發言人沒有具體說明該公司從 Sama 尋求這些圖像的目的,但 OpenAI 在一份聲明中表示標記有害圖像是讓其 AI 工具更安全的「必要步驟」。

根據《時代週刊》報道,一份賬單檔案顯示 2 月 Sama 給 OpenAI 交付了一批 1400 張圖像的樣本,OpenAI 共向 Sama 支付了 787.50 美元。

但很快,Sama 就取消了為 OpenAI 所做的所有工作 —— 比合同約定的時間提前了八個月。Sama 在一份聲明中表示,其為 OpenAI 收集圖像的協議中沒有提及任何非法內容,而且是在工作開始後,OpenAI 才向 Sama 發送了「附加說明」,其中提及「一些非法類別」。Sama 公司決定立即結束這項「圖像分類」合作,並取消所有剩餘的 OpenAI 項目。

今年 1 月 10 日,Sama 宣佈將取消所有涉及敏感內容的剩餘工作。此外,該公司還表示不會與 Facebook 續簽價值 390 萬美元的內容審核合同,這將導致內羅畢大約有 200 個工作崗位流失。

Sama 公司在一份聲明中表示:「在與我們的全球團隊進行多次討論後,Sama 決定退出『自然語言處理』及其內容審核工作,專注於構建計算機視覺資料標註解決方案。過去一年,我們一直在與客戶合作過渡這些業務,並將於 2023 年 3 月完成所有變更。」

然而,人工智慧系統仍然需要人工標記資料,至少目前是這樣。就像人工智慧倫理學家 Andrew Strait 最近在Twitter上說的:「ChatGPT 等生成模型並不神奇,它們依賴於大量的人力供應鏈和蒐集資料,其中大部分資料是未經授權和未經同意使用的。而 OpenAI 並沒有解決這些嚴重的基礎問題。」

參考內容:

https://www.reddit.com/r/MachineLearning/comments/10gtruu/n_openai_used_kenyan_workers_on_less_than_2_per/

https://time.com/6247678/openai-chatgpt-kenya-workers/

相關文章