PyTorch創始人:Transformer太火很不好,AI易撞牆

Souminth Chintala 擔心 Transformer 可能導致人工智慧碰壁。

2017 年 Transformer 首次亮相,便迅速在 AI 領域擴散開來,CV、NLP 等任務都有其身影,越來越多的研究人員投入其中。

要說 Transformer 有多厲害,比如 OpenAI 重磅推出的 GPT-3,就是基於 Transformer 實現的。至於傳播速度方面,短短 5 年,Transformer 便在 TensorFlow 、PyTorch 等主流深度學習框架支持的 AI 程序中佔據一席之地。

可別小看這 5 年,假如我們把機器學習比作一個世界,毫不誇張地說,它們的 5 年相當於我們的半個世紀。

不過與高調宣傳 Transformer 的學者不同,這次 PyTorch 創始人、Meta 傑出工程師 Soumith Chintala 卻唱起了反調,並警告說,Transformer 如此流行,可能是一把雙刃劍

他認為,到今天為止, Transformer 已經 5 年了,這期間還沒有可替代的研究出現。他表示,對占主導地位的 AI 方法(此處指 Transformer)的強烈認可,可能會產生意想不到的後果,越來越多的 Transformer 專用硬體可能會使新策略更難以流行。

Soumith Chintala

至於 Soumith Chintala 為何會有上述結論,他首先從硬體進行舉例。

專用 AI 硬體不斷出現,其他技術將很難出頭

Transformer 自從在論文《 Attention Is All You Need 》中被首次提出,之後便在很多地方都能看到它的身影。

相應地,為 AI 定製專門的硬體開始流行起來。在 GPU 方面,英偉達一直佔據重要地位,他們還發布了一個名為 Hopper 的架構,其名稱來自於電腦科學先驅 Grace Hopper,該架構專門用於 Transformer。

英偉達甚至還基於 Transformer,專門最佳化了 H100 加速卡的設計,提出了 Transformer Engine,它集合了新的 Tensor Core、FP8 和 FP16 精度計算,以及 Transformer 神經網路動態處理能力,可以將此類機器學習模型的訓練時間從幾周縮短到幾天。

Transformer Engine 使用每層統計分析來確定模型每一層的最佳精度(FP16 或 FP8),在保持模型準確率的同時實現最佳性能。

英偉達執行長黃仁勳在最近的財報電話會議上表示,Hopper 將是其戰略的重要組成部分(不過,可以肯定的是,英偉達是一家規模龐大的公司,其產品遠不止 Hopper)。黃仁勳還表示:預計 Hopper 將成為未來增長的下一個跳板。他還表示 Transformer 這個新模型的重要性不能被低估,也不能被誇大。

不過,英偉達一方面推出了專為 Transformer 設計的產品,同時也提供了一系列適合多種不同型號的產品,而且可能已經為新技術的出現做好了準備。儘管如此,硬體專業化仍存在鎖定現代用例的風險,而不是啟用新興用例。

Chintala 對此表示,如果像英偉達這樣的供應商將硬體定製得更適用於當前正規化,那麼其他想法將更難出頭。

不止硬體,更多定製和特定於領域的技術不斷出現,如谷歌的張量處理單元、Cerebras Wafer Scale 引擎等都被提出來,這進一步限制了其他技術的發展。

Chintala 還提到,最近一段時間,AI 圈一直流行著這樣一種說法「PyTorch 在受歡迎程度上超越谷歌的 TensorFlow 」,對於這一結論,Chintala 是拒絕的。

Chintala 表示,PyTorch 不是為了搶走 TensorFlow 的「午餐」而誕生的,它們有各自的優點,這兩種框架各自擅長不同的任務。在研究界,PyTorch 有很好的市場份額,但在其他領域,就很難說了。

不過,谷歌也意識到了 PyTorch 的威脅,他們悄悄地開發一個機器學習框架,JAX(曾是「Just After eXecution」的首字母縮寫,但官方說法中不再代表任何東西),許多人將其視為 TensorFlow 的繼承者。

曾一度有傳言說谷歌大腦和 DeepMind 在很大程度上放棄了 TensorFlow,轉而使用 JAX。谷歌很快出來打假,表示「我們繼續開發 TensorFlow ,並將其作為一流的應用 ML 平臺,與 JAX 並肩推動 ML 研究發展。」

至於 JAX,其擅長將複雜的機器學習任務分散到多個硬體上,極大地簡化了現有工具,使其更容易管理日益龐大的機器學習問題。

Chintala 表示:「我們正在向 JAX 學習,我們也在 PyTorch 中添加了這些內容。顯然,JAX 在某些方面做得更好。Pytorch 確實擅長很多事情,這就是它成為主流的原因,人們用它可以做很多事情。但作為主流框架並不意味著它可以覆蓋所有內容。」

原文連結:

https://www.businessinsider.com/souminth-chintala-pytorch-tensorflow-transformers-innovation-lag-2022-9

相關文章

Transformer,ChatGPT 幕後的真正大佬

Transformer,ChatGPT 幕後的真正大佬

ChatGPT的背後 ChatGPT紅得發紫,強得讓人類心悸。 但在它的背後,還隱藏著一位真正的大佬。 可以說,與它相比,ChatGPT其實...