Google 關閉 Usenet 討論組引爭議:40年前的聊天記錄如何保存

機器之心報道|編輯:張倩、蛋醬

網際網路的記憶,究竟該交給誰保管?

喜歡衝浪的早期網民可能聽說過一個叫 Usenet 的討論組應用。它的功能類似於我們今天用的討論區,但使用方法卻更接近郵箱客戶端。

三四十年前,在沒有瀏覽器的年代,我們的網際網路前輩就在 Usenet 上交流想法,包括一些早期的碼農。隨著 Usenet 走向衰落,谷歌接管了該討論組自 1981 年以來的大部分歷史備份,並將其放在 Google Groups 上供所有人查看。

這些早期資料對於計算機界的「考古挖掘」非常有幫助,比如追溯某個詞的詞源、記錄某種語言的演變。

然而,最近,谷歌卻突然關閉了其中的兩個小組(Forth 和 Lisp),引發了社區的不滿

Forth 和 Lisp 是兩種非常「古老」的語言,年齡上和「上古語言」Cobol 不相上下(都誕生於上世紀五六十年代),Lisp 甚至比 Cobol 還大一歲。因此,這兩個討論組也稱得上是歷史悠久。

雖然隨著新語言的不斷崛起,這兩種語言逐漸失去了自己的優勢,變得不再流行,但我們還是希望關於他們的一些早期資料可以保留下來。這些資料說不定可以幫我們解決一些歷史遺留問題(參見前段時間瘋狂招聘「高齡程式設計師」的 COBOL)。

一位網友在 LWN.net 上發帖表示,「(這件事)所造成的影響是極具破壞性的,意味著兩個社區的歷史和集體記憶正在被擦除。」

由於 Usenet 在國內並未流行起來,我們可能無法體會這些外國網友的心情。但有一點是共通的:我們並不希望網際網路上有價值的一些東西永遠消失。

谷歌的這一舉動不禁讓我們聯想起 GitHub 前不久實施的「北極程式碼庫」項目。除了程式碼之外,整個網際網路資料的保存問題或許也該多討論一下了。

Usenet 是什麼古董?從撥號上網談起

上世紀七十年代,網際網路和瀏覽器都還沒有出現。那個年代的「上網」也叫「撥號上網」,就是透過調變解調器撥一個電話號碼才能將自己的電腦與其他電腦(主機)相連,如果想換一臺主機就得重新撥號。

這種上網方式有一個弊端:如果你想登入離你比較遠的主機,首先電話費會比較貴;其次,當時的主機能力比較差,負擔不起太多遠端使用者的同時登入。因此,登入同一臺主機的通常是地理位置比較接近的使用者。

在這種情況下,怎麼和世界各地的網友建立聯繫呢?

1979 年,杜克大學的研究生湯姆 · 特拉斯科特與吉姆 · 埃利斯設計出了一種分散式的網際網路交流系統,取名為 Usenet(也叫 Newsgroup)

Usenet 分佈在一個不斷變化的大型伺服器集群中,這些伺服器在「新聞源」中相互儲存和轉發訊息。它與 BBS/Web 論壇的主要區別在於其缺少中央伺服器和管理員。

知名科技部落格主阮一峰曾在 2007 年的一個帖子中介紹過 Usenet 的運行機制:

從上面這個機制描述中我們可以看出,在 Usenet 上的交流其實是一個不斷上傳下載的過程,使用起來真的很不方便,而且多數情況下還要付費

因此,經過了十幾年的發展之後,這個討論組從 90 年代開始衰落。PC Magazine 的薩沙 · 西根在 2008 年表示「Usenet 已經奄奄一息了」。

一個不符合時代發展潮流的工具逐漸退出歷史舞臺是一種必然,但問題在於:上面儲存的歷史資料何去何從

其實,早在 Usenet 創建之初就有人提到了這個問題。1982 年,一位名叫 Scott Orshan 的 Usenet 使用者提出,「任何網站都應該永遠保留它所發佈的所有文章」。此外,他還提出了一種 Usenet 的分散式歸檔的方案。此後的數年,Usenet 一直在系統性地備份並儲存積累的帖子,這些計劃的參與者既包括個人,也包括商業公司,DejaNews 就是其中之一。

2001 年,谷歌收購了 DejaNews 並接手了該公司的 Usenet 存檔,以此為基礎創建了 Google Groups(谷歌網上論壇)。此後,谷歌又陸續收到了多方的存檔捐贈,包括多倫多大學動物學系的亨利 · 斯賓塞存檔(包含從 1981 年 5 月到 1991 年 6 月的帖子)、NetNews CD 系列的肯特 · 蘭菲爾德和 GMD 的克里斯托弗爾(從 1991 年底至 1995 年初的存檔)等。

可以說,在 Usenet 走向消亡的日子裡,Google Groups 其實扮演了一個博物館的角色,將 1981 年以來的 Usenet 討論資料開放給所有人查閱。

然而,在大家都以為這是 Usenet 資料的最佳歸宿時,谷歌卻做出了一些令人失望的決定。

信任背後的隱患

2020 年,已經沒有太多人會去 Google Groups 搜尋上世紀的材料了,但我們知道,它們就在那裡,想看隨時都能看。

但現在,隨著兩個程式語言小組的關閉,這份寄託被打破了。

有人譴責谷歌辜負了大家的信任,沒有承擔起保護歷史檔案的責任。

有人從中看到了網際網路公司在保存資料方面的「不靠譜」:「20 年前谷歌接管 Usenet 存檔的時候大家都很開心,還把自己的存檔捐給了谷歌。但現在,大家對於谷歌雲平臺 5 年後還能不能用都持懷疑態度。」

這次變動也引起了 Hackernews 社區的熱議,一位網友提到了自己在參觀美國地質調查局的有趣經歷:

「策展人表示自己不喜歡谷歌(即使谷歌和他們相隔僅幾個街區)。他說,谷歌是偉大的,因為谷歌地圖更加精準,有著更高的覆蓋度。」

但如果谷歌對地圖資料感到厭煩並將其拋棄呢?

這位策展人被要求將所有的歷史 arial 檔案移交給谷歌進行掃描,然後告訴美國地質調查局不再進行 arial 掃描了,因為谷歌正在做這件事。然而谷歌並不會把掃描結果交還給美國地質調查局。

當時,這位網友曾經安慰策展人,表示谷歌永遠也不會刪除自己收集的資料。現在想來,這種擔心不無道理。

網際網路沒有記憶?

「這就是整個網際網路的問題。還記得那些在 20 世紀 90 年代或者 21 世紀初創建的頁面嗎?人們以為他們在和全世界分享這些資訊。事實證明,那時候創建的頁面現在大多都無法訪問了,或者是被大公司排擠掉了。」

所以,有人嘗試建立了個人部落格,確保自己不被平臺供應商所束縛,而且這種方式幾乎是免費的。導流問題可以透過 Medium 的匯入功能解決,但目前不確定能起到多大的效果。

也有人提到,為每個頁面永久存檔本就不是公司的職責。比如在英國,大英圖書館會對所有網站的年度快照進行收集保存。

其實,「網際網路檔案館(Internet Archive)」等機構和個人也保存了一部分 Usenet 的早期資料,但可能沒有谷歌那麼豐富,尤其是 90 年代之前的一些資料。

隨著時代的飛速發展,越來越多的網際網路資料正在從我們的視線裡消失。究竟誰應該擔負起保存網際網路檔案的責任?這些資料要怎麼保存?這些都是亟待解決的問題。

參考連結:

https://news.ycombinator.com/item?id=23977375

http://www.ruanyifeng.com/blog/2007/11/usenet.html

https://www.huxiu.com/article/299650.html

相關文章

不喜歡iPhone的人,救星來了

不喜歡iPhone的人,救星來了

全新Pixel的AI融合技術,再次推進計算攝影的能力邊界。 —— 文|杜晨 編輯|VickyXiao 圖片來源 | Google 美國時間今...

從此,Google 再無 Brain

從此,Google 再無 Brain

世界上最好的 AI Lab,是怎麼走向失敗的? 作者 | Founder Park AI Labs 正在捲土重來,產業界比以往幾十年都更加重...

ChatGPT 背後的經濟賬

ChatGPT 背後的經濟賬

拿投資和賺錢之前,要先去了解下成本。 ChatGPT 能否取代 Google、百度這樣的傳統搜尋引擎?為什麼中國不能很快做出 ChatGPT...

ChatGPT 的「神功」,是如何煉成的?

ChatGPT 的「神功」,是如何煉成的?

最強對話式 AI,站在巨人的肩膀上。 AIGC 在這幾個月成了一個大熱的話題。 頗有些風水輪流轉的感覺,如同年初大火特火的 web3 一樣,...