【CSDN 編者按】GitHub Copilot 的到來,是自動化工具的一個里程碑事件,但是因其採用的程式碼引發的版權爭議,似乎正在打開一個潘多拉魔盒。
整理 | 蘇宓
2021 年 6 月,微軟與 OpenAI 宣佈共同推出一款 AI 程式設計工具—— GitHub Copilot,這讓不少程式設計師朋友歡呼雀躍,奔走相告稱有了程式碼補全神器,終於可以減負還能早些下班了。
然而一年之後,在 Copilot 帶著每月 10 美元每年 100 美元的價格(面向學生、主流開源項目維護者免費)正式上線之際,「好用」的聲音似乎正逐漸淹沒在「我的程式碼沒經授權出現在了 Copilot 自動填充的程式碼行中」斥責與質疑聲中。
近日,一位身兼作家、設計師、程式設計師和律師數職的 Matthew Butterick 正式向 GitHub Copilot 「開炮」,向加利福尼亞州舊金山的美國聯邦法院提起集體訴訟,訴訟的對象為微軟、GitHub 和 OpenAI。

因 Copilot,GitHub、微軟、OpenAI 遭到集體訴訟
Matthew Butterick 還專門開發了一個名為 githubcopilotlitigation.com 的網頁,用來分享對 GitHub Copilot 訴訟的相關進展。
當打開頁面,我們赫然可以看到一些加大的字型內容,「我們已經提起訴訟,挑戰 GitHub Copilot,這是一款依賴於前所未有的開源軟體盜版的人工智慧產品。因為人工智慧需要對每個人都是公平和有道德的。」

緊接著,Matthew Butterick 表示其代表可能有數百萬 GitHub 使用者的擬議集體,對 GitHub Copilot(以及為 Copilot 提供動力的相關產品 OpenAI Codex)的合法性提出質疑,該訴訟的被告包括 GitHub、微軟(GitHub 的所有者)和 OpenAI。

發佈一年,GitHub Copilot 為何引眾怒?
回顧事件始末,Matthew Butterick 等開發者對 GitHub Copilot 實則不滿已久。
GitHub Copilot 現如今作為 Visual Studio 以及 IDE 的外掛,可以幫助開發者在使用編輯器寫程式碼時,自動生成一些程式碼建議。不過,Copilot 相比傳統的自動程式碼生成工具有著很大的不同。
用過這款工具的開發者可能都知道,Copilot 是由 Codex 提供支持,Codex 是由 OpenAI 創建並授權給微軟的 AI 系統(儘管微軟也被稱為「OpenAI的非官方所有者」)。但是,作為底層人工智慧系統的 Codex 是如何訓練的呢?根據 OpenAI 的說法,Codex 接受了「數千萬個公共儲存庫」的訓練,其中包括 GitHub 上的程式碼。
問題的癥結就出現在了這裡,Matthew Butterick 在一篇文章中直接指責道,「也許現在的你並不介意 GitHub Copilot 在沒有詢問的情況下使用你的程式碼。但是,如果 Copilot 逐漸抹殺了開源社區,你會有什麼樣的感覺?」
通過在公開的 GitHub 儲存庫上訓練自家的人工智慧系統,Matthew Butterick 認為微軟、OpenAI、GitHub 侵犯了大量創作者的合法權利,這些創作者在 GitHub 上根據某些開源許可發佈了程式碼或其他作品,如基於 MIT、GPL、Apache 等開源許可證,這些都會要求使用者需註明作者姓名和版權等內容,然而 GitHub Copilot 在補全程式碼時候並沒有這些版權資訊。
為此,Matthew Butterick 從訓練和使用兩個角度質疑了 Copilot 這款產品存在的法律問題。
一、Copilot 產品中基於程式碼訓練的問題
絕大多數的開源軟體包是在授予使用者某些權利和義務(例如保留源程式碼的精確屬性)的許可證下發布的。這些許可證是讓軟體作者在其程式碼中聲明他們的版權。
因此,那些希望使用開源軟體的人必須:
遵守許可證規定的義務
使用受「許可證例外」約束的程式碼,例如,版權法下的合理使用。
微軟和 OpenAI 承認,Copilot 和 Codex 是在 GitHub 上的公共儲存庫中接受了開源軟體的訓練。
然而,如果微軟和 OpenAI 選擇在每個儲存庫所遵循的開源許可證下使用,那麼他們需要發佈大量的許可證所要求的版權資訊,但是,我們現在看不到任何的版權資訊內容。
因此,微軟和 OpenAI 必須依賴於「合理使用」的這個理由。針對這一點,GitHub 前 CEO Nat Friedman 在 Copilot 的技術預覽會上曾經表示過,「在公開資料上訓練(機器學習)系統屬於合理使用。」
Matthew Butterick 表示,事實上,這是一個法律問題,並不是誰說了就算的。
二、使用 Copilot 自動補全程式碼的問題
在使用問題上,此前微軟將 Copilot 的輸出描述為一系列程式碼「建議」。微軟對 Copilot 提供的程式碼建議中「不主張任何權利」。但是,微軟也不保證如此生成的程式碼的正確性、安全性和導致的智慧財產權問題。
簡單來看,這意味著作為使用者,當你使用 Copilot 工具提供的程式碼建議時,「帶來的一切後果都由自己承擔」:
你要對你程式碼的安全性和質量負責。我們建議您在使用 GitHub Copilot 生成的程式碼時採取與使用非您自己編寫的任何程式碼時相同的預防措施。這些預防措施包括嚴格的測試、IP(智慧財產權)掃描和安全漏洞跟蹤。

問題百出的 GitHub Copilot
雖然 Copilot 可以加快編寫程式碼的過程並簡化軟體開發,但是它對公共開源程式碼的使用讓包括 Matthew Butterick 在內的不少開發者以及組織擔心這款工具帶來的一系列麻煩與問題。
不久之前,軟體自由保護協會(以下簡稱 SFC)在官網發表了一篇題為《放棄 GitHub,時機已到》的長文,表示:由於 GitHub 的不當行為,SFC 將結束自己對 GitHub 的所有使用,並將協助其他自由軟體項目從 GitHub 遷移。雖然 SFC 現在不會強制要求現有會員遷移項目,但他們將不再接受不打算從 GitHub 遷移的新會員項目。
其中,SFC 怒批 GitHub 的不當行為指的就是 GitHub 在長達一年的時間內拒絕回應 SFC 對於 Copilot 在公開程式碼上進行訓練的合法性質疑。
除此之外,德州農工大學的一位電腦科學與工程教授 Tim Davis 近日也在Twitter上發文抨擊 GitHub Copilot,「基於人工智慧的程式設計助手 GitHub Copilot 在沒有署名也沒有 LGPL 許可的情況下自動填入了大量我個人受版權保護的程式碼」。

諸如此類的抨擊也不在少數,「似乎微軟正在無視基礎開源許可證的條件和其他法律要求,從他人的工作中獲利」,在本次提起訴訟中代表 Matthew Butterick 的律師事務所 Joseph Saveri 評論道。
在此次訴訟中,Matthew Butterick 認為 Copilot 在違反許可證之外,還違反了以下內容:
GitHub 的服務條款和隱私政策
DMCA 1202,禁止刪除版權管理資訊
加州消費者隱私法
以及引起相關法律索賠的其他法律。
目前訴訟已經提交到了美國加州北區地方法院,要求批准 9,000,000,000 美元的法定賠償金。根據訴訟書內容顯示:
原告估計,僅被告直接違反 DMCA 第 1202 條的法定損失就將過 90 億美元。這個數字代表了微軟在 2022 年 6 月報告的 120 萬 Copilot 使用者中的每一個人所產生的三次最低法定賠償金(2500 美元)。每次 Copilot 提供非法輸出,都會三次違反第 1202 條(在沒有以下內容的情況下分發許可材料:(1)署名,(2)版權聲明,以及(3)許可條款)。因此,如果每個使用者在使用 Copilot 的整個過程中(對最早的使用者來說,最長可達 15 個月)只收到一次違反第 1202 條的輸出,那麼 GitHub 和 OpenAI 就違反了 DMCA 3,600,000 次。按照每起違法行為 2500 美元的最低法定賠償額計算,這相當於 90 億美元。

在未來幾周內,Matthew Butterick 稱可能會修改這份投訴,以增加其他各方和索賠。同時,他說道,「這是將是漫長旅程的第一步。據我們所知,這是美國第一個挑戰人工智慧系統訓練和輸出的集體訴訟案件。它不會是最後一個。人工智慧系統不能免於法律的約束。那些創造和使用這些系統的人必須保持負責任的態度。如果像微軟、GitHub 和 OpenAI 這樣的公司選擇無視法律,他們不應該指望我們公眾會坐視不理。人工智慧需要對每個人都是公平和道德的。如果不是這樣,那麼它就永遠無法實現提升人類的目標。它只會成為少數特權者從多數人的工作中獲利的另一種方式。」
對於這樣的訴訟,不少開發者認為贏面並不大,不過能夠在一定程度上反向促進平臺進行改進,未嘗不是一件好事。對此,你如何看待 GitHub Copilot 這款工具?歡迎留言分享你的看法。
參考資料:
https://githubcopilotlitigation.com/
https://s3.documentcloud.org/documents/23264658/github-complaint.pdf