ChatGPT這把火越燒越旺。國內很多大廠相繼聲稱要做中文版ChatGPT,還公佈了上線時間表,不少科技圈已功成名就的大佬也按捺不住,攜巨資下場,要創建「中國版OpenAI「。
不過,看看過去半個月在群眾眼裡稍顯窘迫的Meta的Galactica,以及Google緊急發佈的Bard,就知道在短期內打造一個比肩甚至超越ChatGPT效果的模型沒那麼簡單。
讓很多人不免感到詫異的是,ChatGPT的核心演算法Transformer最初是由Google提出的,並且在大模型技術上的積累可以說不弱於OpenAI,當然他們也不缺算力和資料,但為什麼依然會被ChatGPT打的措手不及?
Meta首席AI科學家Yann LeCun最近抨擊ChatGPT的名言實際上解釋了背後的門道。他說,ChatGPT「只是巧妙的組合而已」,這句話恰恰道出了一種無形的技術壁壘。
簡單來說,即使其他團隊的演算法、資料、算力都準備的與OpenAI相差無幾,但就是沒想到以一種精巧的方式把這些元素組裝起來,沒有OpenAI,全行業不知道還需要去趟多少坑。
即使OpenAI給出了演算法上的一條路徑,後來者想復現ChatGPT,算力、工程、資料,每一個要素都需要非常深的積累。七龍珠之中,算力是自由流通的商品,花錢可以買到,工程上有OneFlow這樣的開源項目和團隊,因此,對網際網路大廠之外的團隊來說,剩下最大的挑戰在於高質量訓練資料集。
至今,OpenAI並沒有公開訓練ChatGPT的相關資料集來源和具體細節,一定程度上也暫時卡了追趕者的脖子,更何況,業界公認中文網際網路資料質量堪憂。
好在,網際網路上總有熱心的牛人分析技術的細枝末節,從雜亂的資料中串聯起蛛絲馬跡,從而歸納出非常有價值的資訊。
作者|Alan D. Thompson
翻譯|楊婷、徐佳渝、賈川
出品 | OneFlow
一些研究人員的報告稱,通用人工智慧(AGI)可能是從我們當前的語言模型技術進行演進[1],預訓練Transformer語言模型為AGI的發展鋪平了道路。雖然模型訓練資料集日漸增大,但缺乏基本指標文件,包括資料集大小、資料集token數量和具體的內容細節。
儘管業內提出了資料集組成和整理文件的標準[2],但幾乎所有重點研究實驗室在揭示模型訓練資料集細節這方面都做得不夠。這裡整合的研究涵蓋了2018年到2022年初從GPT-1到Gopher的精選語言模型的所有資料集(包括主要資料集:Wikipedia和Common Crawl)的綜合視圖。

概述

圖 1. 主要資料集大小的視覺化彙總。未加權大小,以GB為單位。
2018年以來,大語言模型的開發和生產使用呈現出爆炸式增長。一些重點研究實驗室報告稱,公眾對大語言模型的使用率達到了驚人高度。2021年3月,OpenAI宣佈[3]其GPT-3語言模型被「超過300個應用程序使用,平均每天能夠生成45億個詞」,也就是說僅單個模型每分鐘就能生成310萬詞的新內容。
值得注意的是,這些語言模型甚至還沒有被完全理解,史丹佛大學的研究人員[4]最近坦言,「目前我們對這些模型還缺乏認知,還不太了解這些模型的運轉模式、不知道模型何時會失效,更不知道這些模型的突現性(emergent properties)能產生什麼效果」。
隨著新型AI技術的快速發展,模型訓練資料集的相關文件質量有所下降。模型內部到底有什麼秘密?它們又是如何組建的?本文綜合整理並分析了現代大型語言模型的訓練資料集。
因為這方面的原始文獻並不對外公開,所以本文蒐集整合了二、三級研究資料,在必要的時候本文會採用假設的方式來推算最終結果。
在本文中,我們會將原始論文中已經明確的特定細節(例如token數量或資料集大小)歸類為「公開的(disclosed)」資料,並作加粗處理。
多數情況下,適當地參考二、三級文獻,並採用假設的方式來確定最終結果是很有必要的。在這些情況下,token數量和資料集大小等細節是「確定的(determined)」,並以斜體標記。
模型資料集可分為六類,分別是:維基百科、書籍、期刊、Reddit連結、Common Crawl和其他資料集。

表1. 主要資料集大小彙總。以GB為單位。公開的資料以粗體表示。確定的資料以斜體表示。僅原始訓練資料集大小。
1.1. 維基百科
維基百科是一個免費的多語言協作線上百科全書,由超過300,000名志願者組成的社區編寫和維護。截至2022年4月,英文版維基百科中有超過640萬篇文章,包含超40億個詞[5]。維基百科中的文字很有價值,因為它被嚴格引用,以說明性文字形式寫成,並且跨越多種語言和領域。一般來說,重點研究實驗室會首先選取它的純英文過濾版作為資料集。
1.2. 書籍
故事型書籍由小說和非小說兩大類組成,主要用於訓練模型的故事講述能力和反應能力,資料集包括Project Gutenberg和Smashwords (Toronto BookCorpus/BookCorpus)等。
1.3. 雜誌期刊
預印本和已發表期刊中的論文為資料集提供了堅實而嚴謹的基礎,因為學術寫作通常來說更有條理、理性和細緻。這類資料集包括ArXiv和美國國家衛生研究院等。
1.4. Reddit連結
WebText是一個大型資料集,它的資料是從社交媒體平臺Reddit所有出站連結網路中爬取的,每個連結至少有三個贊,代表了流行內容的風向標,對輸出優質連結和後續文字資料具有指導作用。
1.5. Common Crawl
Common Crawl是2008年至今的一個網站抓取的大型資料集,資料包含原始網頁、元資料和文字提取,它的文字來自不同語言、不同領域。重點研究實驗室一般會首先選取它的純英文過濾版(C4)作為資料集。
1.6. 其他資料集
不同於上述類別,這類資料集由GitHub等程式碼資料集、StackExchange 等對話論壇和視訊字幕資料集組成。

常用資料集
2019年以來,大多數基於Transformer的大型語言模型 (LLM) 都依賴於英文維基百科和Common Crawl的大型資料集。在本節中,我們參考了Jesse Dodge和AllenAI(AI2)[8]團隊的綜合分析,按類別對英文維基百科作了高級概述,並在Common Crawl資料集[7]的基礎上,用GoogleC4[6] (Colossal Clean Crawled Corpus)在Common Crawl中提供了頂級域(domains)。
2.1. 維基百科(英文版)分析
下面按類別[9]列出了維基百科的詳細資訊,涵蓋了2015年抽樣的1001篇隨機文章,研究人員注意到隨時間推移文章傳播的穩定性。假設一個11.4GB、經過清理和過濾的維基百科英文版有30億token,我們就可以確定類別大小和token。

表2. 英文維基百科資料集類別。公開的資料以粗體表示。確定的資料以斜體表示。
2.2 Common Crawl分析
基於AllenAI (AI2)的C4論文,我們可以確定,過濾後的英文C4資料集的每個域的token數和總體百分比,該資料集為305GB,其中token數為1560億。

表3. C4:前23個域(不包括維基百科)。公開的資料以粗體表示,確定的資料以斜體表示。

GPT-1資料集
2018年,OpenAI發佈了1.17億參數的GPT-1。在論文中,OpenAI並沒有公佈模型訓練資料集的來源和內容[10],另外,論文誤將‘BookCorpus’拼寫成了‘BooksCorpus’。BookCorpus以作家未出版的免費書籍為基礎,這些書籍來自於Smashwords,這是一個自稱為「世界上最大的獨立電子書分銷商」 的電子書網站。這個資料集也被稱為Toronto BookCorpus。經過幾次重構之後,BookCorpus資料集的最終大小確定為4.6GB[11]。
2021年,經過全面的回顧性分析,BookCorpus資料集對按流派分組的書籍數量和各類書籍百分比進行了更正[12]。資料集中有關書籍類型的更多詳細資訊如下:

表4. BookCorpus書籍類型。公開的資料以粗體表示,確定的資料以斜體表示。
在隨後的資料集重構中,BookCorpus資料集進一步過濾掉了書籍中的「吸血鬼」類別、降低了言情類書籍的百分比、增加了「歷史」類書籍,增加了收集的書籍數量。
3.1. GPT-1資料集總結
GPT-1最終的資料集總結分析如下:

表5.GPT-1資料集總結。以GB為單位。公開的資料以粗體表示,確定的資料以斜體表示。

GPT-2資料集
2019年,OpenAI發佈了擁有15億參數的語言模型GPT-2。GPT-2論文闡明瞭所用訓練資料集的大小[13],不過並未說明其內容。而GPT-2模型卡(model card)(在GPT-2 GitHub倉庫中)說明了模型內容[14]。
我們可以從GPT-3論文中得到token數量,該論文使用了WebText擴展版本來表示190億token。據推測,2020年推出的WebText擴展版本擁有12個月的額外資料(additional data),因此它可能比2019年推出的GPT-2版本大25%左右[15]。GPT-2最終的token數量確定為150億左右。
如GPT-2論文所述,假設模型卡顯示連結數時,每個連結都可以被4500萬連結總數所除,那WebText的內容在資料集中所佔的百分比的詳細資訊就可以確定。
然後可以使用確定的150億token數量來查找每個域的token數量。請注意,在可用的前1,000個域中,此處僅顯示前50個域。

表6. WebText: 前50個域。 公開的資料以粗體表示,確定的資料以斜體表示。
4.1. GPT-2資料集總結
GPT-2模型最終的資料集總結分析如下:

表7. GPT-2資料集總結。 公開的資料以粗體表示,確定的資料以斜體表示。

GPT-3資料集
GPT-3模型由OpenAI於2020年發佈。論文闡明瞭所用訓練資料集的token數量[16],但訓練資料集的內容和大小尚不清楚(Common Crawl的資料集大小除外[17])

表8. GPT-3資料集。 公開的資料以粗體表示,確定的資料以斜體表示。
5.1. GPT-3:關於Books1和Books2資料集的分析
特別值得關注的是,在OpenAI的GPT-3論文中,並未公開Books1資料集(120億token)和Books2資料集(550億token)的大小和來源。關於這兩個資料集的來源人們提出了幾個假設,包括來自LibGen18和Sci-Hub的類似資料集,不過這兩個資料集常以TB為計,大到無法匹配。
5.2. GPT-3:Books1
GPT-3使用的Books1資料集不可能與GPT-1使用的BookCorpus資料集相同,原因在於Books1的資料集更大,達120億token。在一篇引用的論文[19]中就提及GPT-1使用的BookCorpus資料集擁有9.848億個詞,但這可能只相當於13億token(984.8字x 1.3字的token乘數)。
通過標準化項目古騰堡語料庫(SPGC),Books1有可能與古騰堡項目保持一致性。SPGC是一種開放式科學方法,被用於古騰堡項目完整的PG資料的精選(curated)版本。SPGC包含120億個token[20],大約為21GB[21]。
5.3. GPT-3:Books2
Books2(550億token)可能與Bibliotik保持一致,並由EleutherA收集該來源的資料,組成資料集,使其成為The Pile v1的一部分。Bibliotik版本為100.96GB[22],其確定的token數僅為250億,低於Books2公開的550億。然而,使用SPGC的‘每位元組token數’比率(大約為1:1.75),Bibliotik的token數和大小將更接近於Books2。
5.4. GPT-3資料集總結
附錄A概述了使用Wikipedia + CommonCrawl + WebText資料集的頂級資源列表。GPT-3模型的最終資料集總結分析如下:

表9.GPT-3資料集總結。公開的資料以粗體表示,確定的資料以斜體表示。

The Pile v1(GPT-J和GPT-NeoX-20B)資料集
The Pile v1資料集由EleutherAI於2021年發佈,該資料集已被用於訓練包括GPT-J、GPT-NeoX-20B在內的多種模型,並作為包括MT-NLG在內的其他模型的部分資料集。The Pile v1論文闡明瞭所用訓練資料集的來源和大小。隨著token數量的增加,The Pile v1論文應被用作未來資料集文件的黃金標準。
有關token數量的更多詳情,可以使用本文提供的資訊來確定,參見表1(大小以GB為單位)和表7(token/每位元組)[23]。

表10. The Pile v1資料集。公開的資料以粗體表示,確定的資料以斜體表示。
6.1. The Pile v1分組資料集(Grouped Datasets)
為了確定如‘Books’、‘Journals’和‘CC’這類資料集的大小,筆者對資料集進行了分組,如下表所示。

表11. The Pile v1分組資料集(不包括Wikipedia、CC 和 WebText)。公開的資料以粗體表示,確定的以斜體表示。
6.2. The Pile v1資料集總結
The Pile v1資料集與GPT-J和GPT-NeoX-20B模型的最終資料集總結分析如下:

表 12. Pile v1 資料集總結。 公開的資料以粗體表示,確定的資料以斜體表示。

Megatron-11B和RoBERTa資料集
2019年,Meta AI(當時稱之為Facebook AI)和華盛頓大學聯合發佈了擁有1.25億參數的RoBERTa模型。次年,Meta AI發佈了擁有110億參數的Megatron-11B模型。Megatron-11B使用的訓練資料集與RoBERTa相同。RoBERTa[24]論文闡明瞭所用訓練資料集的內容,不過必須參考引用的論文(BERT[25]和toryes[26])來確定最終的資料集大小。
BookCorpus: 確定的資料集為4.6GB,如上面的GPT-1部分所示。
維基百科:公開的資料集為「16GB(BookCorpus加上英文維基百科)」。在減去BookCorpus資料集(4.6GB,如上面的GPT-1部分所述)後,維基百科資料集確定為11.4GB。
CC-News:(經過濾後)公開的資料集為76GB。
OpenWebText: 公開的資料集為38GB。
Stories: 公開的資料集為31GB。請注意,此資料集是「基於常識推理任務問題」的Common Crawl內容,不屬於本文的‘Books’類別。相反,將Stories與CC-News資料集(76GB)相結合,Common Crawl的總資料集則為107GB。
7.1. Megatron-11B和RoBERTa的資料集總結
Megatron-11B和RoBERTa最終的資料集總結分析如下:

表13. Megatron-11B和RoBERTa的資料集總結。 公示的資料以粗體表示,確定的資料以斜體表示。

MT-NLG資料集
2021年,英偉達和微軟發佈了擁有5300億參數的語言模型MT-NLG。MT-NLG是微軟Turing NLG(擁有170億參數)和英偉達Megatron-LM(擁有83億參數)的「繼任者」。MT-NLG論文闡明瞭所用訓練資料集的來源和token數量,不過沒有明確指出資料集的大小。
如前所述,有關資料集大小的更多詳情,可以使用The Pile v1論文中提供的資訊來確定。雖然使用的元件相同,但注意的是,MT-NLG和The Pile v1中報告的元件大小卻各不相同,這是由於來自Eleuther AI (The Pile v1資料集)和Microsoft/NVIDIA (MT-NLG模型)的研究人員採用了不同的資料過濾和去重方法。
8.1. MT-NLG中的Common Crawl資料集
Pile-CC:公開的資料集為498億token,確定的資料為227.12GB左右,參見上述Pile v1部分。
CC-2020-50: 公開的資料集為687億token,假設token的每位元組率(per byte rate)為0.25 TpB=274.8GB。
CC-2021-04:公開的資料集為826億token,假設token的每位元組率為0.25 TpB=330.4GB
RealNews(來自RoBERTa/Megatron-11B):顯示為219億token。根據RealNews論文[27],資料集確定為120GB。
CC-Stories(來自RoBERTa/Megatron-11B):公開的資料集為53億token,如上述RoBERTa部分所示,資料集確定為31GB。
根據以上來源,可確認Common Crawl的總資料量為983.32GB,共計2283億token。
8.2. MT-NLG分組資料集(Grouped Datasets)

表14. MT-NLG 分組資料集。公開的資料以粗體表示,確定的資料以斜體表示。
8.3. MT-NLG資料集總結
MT-NLG模型最終的資料集總結分析如下:

表15. MT-NLG資料集總結。 公示的資料以粗體表示,確定的資料以斜體表示。

MT-NLG 資料集Gopher資料集
Gopher模型由DeepMind於2021年發佈,有2800億參數。該論文清楚地說明了所使用訓練資料集所包含的高級token數量和大小[28],但沒有說明詳細內容。

表16. 公開的Gopher資料集 (MassiveText)。公開的資料以粗體表述,確定的資料以斜體表示。
有趣的是,據Gopher論文披露:其Books資料集中包含一些超過500年曆史(1500-2008)的書籍。
9.1. MassiveWeb資料集分析
DeepMind於2014年被Google收購,並在創建MassiveText時獲得了海量資料。雖然Gopher論文中沒有進一步詳細描述MassiveWeb,但第44頁附錄中的表A3b註明了MassiveWeb中出現的前20個域[29]。根據披露的每個域所佔的百分比,我們可以使用MassiveWeb的總token數(5060億token)和總原始大小(1900GB)來確定每個域的token數量和大小。

表17. MassiveWeb:前20個域。公開的資料以粗體表示,確定的資料以斜體表示。
9.2. Gopher:關於維基百科資料集的分析
維基百科資料集的總規模很難確定。在Gopher論文中,研究人員指出維基百科沒有進行資料去重[30]。然而,論文中列出的不同大小資料集(12.5GB MassiveWeb Wikipedia與1GB MassiveText Wikipedia)可能是由於失誤而造成的,誤將「10GB」寫成了「1GB」。無論如何,本文僅使用MassiveWeb資料集版本 (12.5GB)。
9.3. Gopher:不包括WebText
Gopher資料集的組成部分不包括Reddit外鏈的WebText資料集。為了清楚起見,儘管Reddit是MassiveWeb中的頂級域,但該資料集僅抓取Reddit域內的Reddit連結。根據定義,WebText[31]由「所有Reddit的外鏈」組成(即指向Reddit域外的連結)。
9.4. Gopher分組資料集
MassiveWeb被認為是MassiveText的子元件,並被集成到Gopher的資料集彙總中,其分組基於以下列出的可用資訊:

表18. Gopher分組資料集。公開的資料以粗體表示,確定的資料以斜體表示。
9.5. Gopher資料集總結
Gopher是本文中最大的資料集,大小為10.5TB。Gopher模型的最終資料集總結分析為:

表19. Gopher資料集總結。公開的資料以粗體表示,確定的資料以斜體表示。

結論
對於訓練當代Transformer大型語言模型的資料集而言,這可能是最全面的整合分析內容(截止2022年初)。在主要資料來源不透明的情況下,本次研究主要從二級和三級來源收集資料,並經常需要假定來確定最終估計值。隨著研究人員要處理千萬億個token(1,000萬億)和數千TB的資料(1,000TB),確保詳細披露資料集組成的文件變得越來越重要。
特別值得關注的是,基於大型語言模型的強大AI系統產生的冗長而匿名的輸出正在迅速發展,其中許多資料集的細節內容幾乎沒有文件說明。
強烈建議研究人員使用突出顯示的「資料集的資料表(Datasheet for Datasets)」論文中提供的模板,並在記錄資料集時使用最佳實踐論文(即Pile v1論文,包括token數量)。資料集大小(GB)、token數量(B)、來源、分組和其他詳細資訊指標均應完整記錄和發佈。
隨著語言模型不斷發展並更廣泛地滲透到人們的生活中,確保資料集的詳細資訊公開透明、所有人都可訪問且易於理解是有用、緊迫和必要的。
擴展閱讀及腳註(請上下滑動)
考慮到簡潔和可讀性,本文使用了腳註而非文字/括弧式引文。主要參考文獻如下,或者參見http://lifearchitect.ai/papers/,獲取大語言模型領域的主要基礎論文。以下論文按本文順序顯示。
Datasheets for Datasets Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J., Wallach, H., Daumé III, H., & Crawford, K. (2018). Datasheets for Datasets. https://arxiv.org/abs/1803.09010
GPT-1 paper Radford, A., & Narasimhan, K. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI. https://cdn.openai.com/research-covers/language-unsupervised/language_understan ding_paper.pdf
GPT-2 paper Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI. https://cdn.openai.com/better-language-models/language_models_are_unsupervised _multitask_learners.pdf
GPT-3 paper Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., & Dhariwal, P. et al. (2020). OpenAI. Language Models are Few-Shot Learners. https://arxiv.org/abs/2005.14165
The Pile v1 paper Gao, L., Biderman, S., Black, S., Golding, L., Hoppe, T., & Foster, C. et al. (2021). The Pile: An 800GB Dataset of Diverse Text for Language Modeling.
EleutherAI. https://arxiv.org/abs/2101.00027
GPT-J announcement Komatsuzak, A., Wang, B. (2021). GPT-J-6B: 6B JAX-Based Transformer. https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/
GPT-NeoX-20B paper Black, S., Biderman, S., Hallahan, E. et al. (2022). EleutherAI. GPT-NeoX-20B: An Open-Source Autoregressive Language Model. http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf
RoBERTa paper Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., & Chen, D. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. Meta AI. https://arxiv.org/abs/1907.11692
MT-NLG paper Smith, S., Patwary, M., Norick, B., LeGresley, P., Rajbhandari, S., & Casper, J. et al. (2021). Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model. Microsoft/NVIDIA. https://arxiv.org/abs/2201.11990
Gopher paper Rae, J., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., & Song, F. et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. DeepMind. https://arxiv.org/abs/2112.11446
Appendix A: Top 50 Resources: Wikipedia + CC + WebText (i.e. GPT-3)
附錄 A:前50個資源:Wikipedia + CC + WebText(即 GPT-3)
基於本文內容,尤其是每個資料集中每個資源的token數量,我們可以對將Wikipedia + Common Crawl + WebText資料集的組合,作為其整體訓練資料集的一部分模型進行資源或域的排序。為清楚起見,這包括以下模型:OpenAI GPT-3、EleutherAI GPT-J、EleutherAI GPT-NeoX-20B、Meta AI Megatron-11B和RoBERTA,以及 Microsoft/NVIDIA MT-NLG等。
請注意,展示的排名基於資料集中可用的未加權總token,每個資料集的主觀權重由研究人員在模型預訓練之前計算得出。其中有一些重複(例如,《紐約時報》既出現在有1.11億token的WebText中,也出現在過濾後有1億token的Common Crawl中)。

腳註
1. GPT-NeoX-20B paper: pp11, section 6 http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf
2. Datasheet for Datasets paper: https://arxiv.org/abs/1803.09010
3. OpenAI blog: https://openai.com/blog/gpt-3-apps/
4. On the Opportunities and Risks of Foundation Models: https://arxiv.org/abs/2108.07258
5. Size of Wikipedia: https://en.wikipedia.org/wiki/Wikipedia:Size_of_Wikipedia
6. C4 dataset: https://www.tensorflow.org/datasets/catalog/c4
7. Common Crawl website: https://commoncrawl.org/
8. C4 paper: https://arxiv.org/abs/2104.08758 pp2, Figure 1 right
9. Wikipedia categories: https://en.wikipedia.org/wiki/User:Smallbones/1000_random_results: 「維基百科涵蓋哪些主題?覆蓋範圍是否隨時間變化?使用2015年12月抽取的1001篇隨機文章對這些問題和類似問題進行了查驗…隨著時間推移,這些比例相當穩定…傳記(27.8%),地理(17.7%),文化和藝術(15.8%),歷史(9.9%),生物學、健康和醫學(7.8%),體育(6.5%),商業(4.8%),其他社會(4.4%),科學與數學(3.5%),教育(1.8%)。」
10. GPT-1 paper: pp4 「We use the BooksCorpus dataset for training the language model.」
11. https://huggingface.co/datasets/bookcorpus: 「Size of the generated dataset: 4629.00 MB」
12. BookCorpus Retrospective Datasheet paper: pp9 https://arxiv.org/abs/2105.05241
13. GPT-2 paper: pp3 「我們從社交媒體平臺Reddit中抓取了至少有3個karma的所有出站連結。這可以被認為是一個啟發式指標,用於判斷其他使用者是否覺得該連結有趣、有教育意義或只是有趣……WebText包含這4500萬個連結的文字子集……其中不包括2017年12月之後創建的連結。經過去重和一些基於啟發式的清理後,其中包含大約超過800萬個文件,總共40GB文字。我們從WebText中移除了所有維基百科文件…」
14. GPT-2 model card: https://github.com/openai/gpt-2/blob/master/model_card.md: 「我們已經發布了WebText中出現的前1,000個域及其頻率的列表。WebText中排名前15位的域是:Google、Archive、Blogspot、GitHub、紐約時報、Wordpress、華盛頓郵報、維基亞、BBC、衛報、eBay、Pastebin、CNN、雅虎和赫芬頓郵報。」
15. GPT-3 paper: 「WebText2:190億token。[Alan:WebText2是從WebText稍微擴展而來,所以我們可以減去20%,得到150億token]」
16. GPT-2 paper: pp3 「GPT-3: pp9, Table 2.2 「CC: 4100億token. WebText2: 190億token. Books1: 120億token. Books2: 550億token. Wiki: 30億token」
17. GPT-3 paper: pp8
18. BookCorpus repo: soskek/bookcorpus#27: 「books3.tar.gz似乎類似於OpenAI在他們的論文中引用的神秘「books2」資料集。不幸的是,OpenAI不會提供細節,所以我們對其差異知之甚少。人們懷疑它是「libgen的全部」,但這純粹是猜測。儘管如此,books3仍是「所有的bibliotik」……」
19. BookCorpus paper: https://arxiv.org/abs/1506.06724: 「# of words: 984,846,357 [Alan: BookCorpus有13億token。我們想要有120-550億token]」
20. Gutenberg paper: https://arxiv.org/abs/1812.08092: 「我們介紹了標準化項目古騰堡語料庫(SPGC),這是一種開放的科學方法,用於處理完整PG資料的精選版本,其中包含超過50,000本書和3×109word-token[Alan:相當於大約120億BPE token,見下文 ]」
21. Gutenberg repo: https://zenodo.org/record/2422561 「未壓縮大小:3GB(count)+ 18GB(token)[總計21GB]」
22. The Pile v1 paper: 「Books3(Bibliotik tracker):100.96GB」 [Alan:乘以每位元組token數0.2477 = 250億token]
23. The Pile v1 paper: pp3, Table 1 for datasets. pp28, Table 7 for Tokens per byte.
24. RoBERTa paper: https://arxiv.org/abs/1907.11692 「BOOKCORPUS加上英文WIKIPEDIA。這是用來訓練 BERT的原始資料。(16GB)。」
25. BERT paper: https://arxiv.org/abs/1810.04805 「BERT在BooksCorpus(8億字)和維基百科(25億字)上進行訓練。」
26. Stories paper: https://arxiv.org/abs/1806.02847 pp5-6
27. RealNews paper: https://arxiv.org/abs/1905.12616v3 「去重後,RealNews在沒有壓縮的情況下為120GB。」
28. Gopher paper: https://arxiv.org/abs/2112.11446 pp 7: list of sizes and tokens.
29. Gopher paper: https://arxiv.org/abs/2112.11446 pp 44, Figure A3b.
30. Gopher paper: pp41n14 「請注意,我們將文件去重應用於除Wikipedia和GitHub之外的所有MassiveText子集「
31. GPT-2 paper, pp3.
關於作者
Alan D. Thompson博士是人工智慧專家、顧問。在2021年8月的世界人才大會(World Gifted Conference)上,Alan與Leta(由GPT-3提供支持的AI)共同舉辦了一場名為「The new irrelevance of intelligence」的研討會。他的應用型人工智慧研究和視覺化成果受到了國際主要媒體的報道,同時還在2021年12月牛津大學有關AI倫理的辯論中被引用。他曾擔任門薩國際(Mensa International)主席、通用電氣(GE)和華納兄弟(Warner Bros)顧問,也曾是電氣與電子工程師協會(IEEE)和英國工程技術學會(IET)會員。
原文:https://lifearchitect.ai/whats-in-my-ai/
本文由OneFlow編譯發佈,CSDN獲得授權後發佈,轉載請聯繫OneFlow獲得授權。