7 Papers & Radios | Hinton前向-前向神經網路訓練演算法;科學家造出「蟲洞」登Nature封面

機器之心 & ArXiv Weekly Radiostation

參與:杜偉、楚航、羅若天

本週主要論文包括:Hinton 在 NeurIPS 2022 會議上對 Forward-Forward(FF)網路的解讀;科學家們創造了有史以來第一個蟲洞,研究論文登上《Nature》雜誌的封面等研究。

目錄

  1. The Forward-Forward Algorithm: Some Preliminary Investigations
  2. The Architectural Bottleneck Principle
  3. Traversable wormhole dynamics on a quantum processor
  4. Integers expressible as the sum of two rational cubes
  5. Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models
  6. An empirical analysis of compute-optimal large language model training
  7. Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音訊)

論文 1:The Forward-Forward Algorithm: Some Preliminary Investigations

  • 作者:Geoffrey Hinton
  • 論文地址:https://www.cs.toronto.edu/~hinton/FFA13.pdf

摘要:在 NeurIPS 2022 會議上,圖靈獎得主、深度學習先驅 Geoffrey Hinton 被邀請發表演講。Hinton 此次演講的主題為《The Forward-Forward Algorithm for Training Deep Neural Networks》。在演講中,Geoffrey Hinton 表示,「機器學習研究社區在意識到深度學習對計算機構建方式的影響上一直表現緩慢。」他認為,人工智慧的機器學習形式將引發計算機系統的變革,這是一種將 AI「放入你的烤麵包機」的新型軟硬結合。

在這次演講中,Hinton 花了大部分時間談論一種新的神經網路方法,他稱之為 Forward-Forward(FF)網路,它取代了幾乎所有神經網路中使用的反向傳播技術。Hinton 提出,通過去除反向傳播,前向網路可能更合理地接近現實生活中在大腦中發生的情況。

Hinton 表示,FF 方法可能更適合普通的計算硬體。「當前如果要實現這樣的事情,我們必須有一個將在專屬硬體中運行的學習程序,必須要學習利用該專屬硬體的具體屬性,而不知道所有這些屬性是什麼。但我認為前向演算法是一個有潛力的選項。」

推薦:圖靈獎得主、深度學習先驅 Hinton 在關於深度學習影響計算機構建方式、神經網路演算法等方面分享了他的最新觀點。

論文 2:The Architectural Bottleneck Principle

  • 作者:Tiago Pimentel 、 Josef Valvoda 等
  • 論文地址:https://arxiv.org/pdf/2211.06420.pdf

摘要:本文中,來自劍橋大學、蘇黎世聯邦理工學院的研究者提出架構瓶頸原則 (ABP,architectural bottleneck principle) 作為構建有用 probe 的指南,並試圖測量神經網路中的一個元件可以從饋送到它的表示中提取多少資訊。為了估計給定元件可以提取多少資訊,該研究發現 probe 應該與元件完全相同。根據這一原理,該研究通過注意力 probe 來估計有多少句法資訊可用於 transformer。

結果表明,大多數(儘管不是全部)句法資訊都可以通過這種簡單的注意力頭架構提取:英語句子平均包含 31.2 bit 的句法樹結構資訊,而注意力 probe 可以提取 28.0 bits 資訊。更進一步,在 BERT、ALBERT 和 RoBERTa 語言模型上,一個句子的語法樹大部分是可以被 probe 提取的,這表明這些模型在組成上下文表示時可以訪問句法資訊。然而,這些模型是否真的使用了這些資訊,仍然是一個懸而未決的問題。

圖中展示了主要結果

圖中展示了主要結果。

推薦:劍橋和 ETH Zurich 的研究者從一個新的角度探討了 probing,不關心模型編碼了多少資訊,而是關心它的元件可以提取多少資訊。

論文 3:Traversable wormhole dynamics on a quantum processor

  • 作者:Daniel Jafferis、Alexander Zlokapa 等
  • 論文地址:https://www.nature.com/articles/s41586-022-05424-3

摘要:科學家們創造了有史以來第一個蟲洞,研究論文登上了《Nature》雜誌的封面。蟲洞就像一個全息圖,由儲存在微型超導電路中的量子比特資訊或「qubit」組成。該研究通過操縱量子比特,成功通過蟲洞發送了資訊。

為了創建蟲洞,研究者從一個大的量子系統開始,把它當作一個神經網路。反向傳播更新了系統的參數以保持引力特性,而稀疏化減少了系統的大小。他們應用機器學習來學習一個系統,只保留了一個關鍵的引力特徵:使用負能量衝擊波的重要性。訓練資料集比較了粒子穿越一個用負能量撐開的蟲洞和用正能量塌縮的蟲洞的動態。通過確保學到的系統保留這種不對稱性,他們得到了一個與蟲洞動力學一致的稀疏模型。

在粒子撞上負能量衝擊波後,混亂的模式有效地反向進行:當粒子從蟲洞中出現時,就好像墨滴通過完全撤消其原來的湍流擴散而重新組合在一起。如果在任何一個時間點上,發生了一個小錯誤,混沌動力學就不會自我撤消,粒子也就無法通過蟲洞了。

推薦

推薦:科學家造出史上首個「蟲洞」,登 Nature 封面。

論文 4:Integers expressible as the sum of two rational cubes

  • 作者:Levent Alpöge、Manjul Bhargava 等
  • 論文地址:https://arxiv.org/abs/2210.10730

摘要:今年早些時候,三位數學家討論了數論中最古老的問題之一:有多少整數可以寫成兩個分數(有理數)的立方之和。例如,數字 6 = (17/21)^3 + (37/21)^3,而 13 = (7/3)^3+(2/3)^3。

幾十年來,數學家們一直猜測整數中有一半可以寫成這種形式,就像奇數和偶數一樣。數學家已經計算出,如果世界七大數學難題之一 BSD 猜想被證實,那麼大約 59% 的數字都可以寫成兩個有理數的立方和。但這個比例資料僅能提供一些參考而已。

如下圖所示,藍色方格內的數字可以寫成兩個有理數的立方和;其他則不能。

在 10 月下旬發表的一篇論文中,三位數學家證明了至少有 2/21(約 9.5%)和最多 5/6(約 83%)的整數可以寫成兩個分數的立方之和。值得一提的是,論文作者之一 Manjul Bhargava 在 2014 年因其對橢圓曲線研究做出的貢獻而獲得菲爾茲獎。

推薦:千禧年大獎難題 BSD 猜想有了新進展。

論文 5:Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models

  • 作者:Xichen Pan 、 Pengda Qin 等
  • 論文地址:https://arxiv.org/pdf/2211.10950.pdf

摘要:本文中,來自滑鐵盧大學、阿里巴巴集團等機構的研究者提出了自迴歸潛在擴散模型(auto-regressive latent diffusion model, AR-LDM),從故事視覺化和故事延續入手。故事的視覺化旨在合成一系列圖像,用來描述用句子組成的故事;故事延續是故事視覺化的一種變體,與故事視覺化的目標相同,但基於源框架(即第一幀)完成。這一設置解決了故事視覺化中的一些問題(泛化問題和資訊限制問題),允許模型生成更有意義和連貫的圖像。

具體來說, AR-LDM 採用了歷史感知編碼模組,其包含一個 CLIP 文字編碼器和 BLIP 多模態編碼器。對於每一幀,AR-LDM 不僅受當前字幕的指導,而且還以先前生成的圖像字幕歷史為條件。這允許 AR-LDM 生成相關且連貫的圖像。

如下圖 2a 所示,AR-LDM 利用歷史字幕和圖像來生成未來幀。圖 2b 顯示了 AR-LDM 的詳細架構。

推薦

推薦:用擴散模型合成連貫視覺故事,輸入字幕就能腦補畫面,代詞 ta 都分得清。

論文 6:An empirical analysis of compute-optimal large language model training

  • 作者:Jordan Hoffmann、Sebastian Borgeaud、Arthur Mensch 等
  • 論文地址:https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-training

摘要:該研究提出一個問題:給定固定的 FLOPs 預算,模型的大小和訓練 token 數應該如何權衡?該研究對這種權衡進行了建模,並基於該模型進行預測,同時訓練與該預測相對應的模型。由此產生的模型明顯更小,但包含了更多的 token,性能優於其對應模型,同時由於模型尺寸更小,在下游任務中也更實用。總而言之,這項工作為社區在語言模型背景下思考規模的方式提供了新的思路,這也可能對 AI 的其他領域有用。

推薦:NeurIPS 2022 獲獎論文。

論文 7:Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism

  • 作者:Xupeng Miao、Yujie Wang 等
  • 論文地址:https://arxiv.org/abs/2211.13878

摘要:北大河圖團隊提出了一款分散式訓練神器 Galvatron,以實現大模型的高效自動並行,研究論文入選國際頂會 VLDB 2023。

研究者們提出了一些系列工作來探索混合並行的自動搜尋:一類工作主要討論了同時考慮資料並行和模型並行的搜尋空間,代表性工作包括 FlexFlow,Tofu,另一類工作則產生於流水並行場景,將其與資料並行相結合,代表性工作包括 PipeDream,DAPPLE。在此基礎上還有一些衍生工作,如 Unity、Alpa,進一步擴展了自動並行的探索範圍。北大河圖團隊提出的系統「驚破天」Galvatron 同樣屬於自動並行搜尋的研究領域,但相比於現有工作,該系統主要擁有三方面優勢。

Galvatron 工作流程及使用者使用接口展示。

推薦:北大河圖發佈分散式訓練神器 Galvatron。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本週更多重要論文,包括NLP、CV、ML領域各 10 篇精選,並提供音訊形式的論文摘要簡介,詳情如下:

本週 10 篇 NLP 精選論文是:

1. Open Relation and Event Type Discovery with Type Abstraction. (from Jiawei Han)

2. Learning to Select from Multiple Options. (from Philip S. Yu)

3. Towards Generalized Open Information Extraction. (from Jian Sun)

4. Guiding Neural Entity Alignment with Compatibility. (from Bing Liu)

5. Dependency-aware Self-training for Entity Alignment. (from Bing Liu)

6. Noisy Label Detection for Speaker Recognition. (from Lei Zhang)

7. Anger Breeds Controversy: Analyzing Controversy and Emotions on Reddit. (from Kai Chen)

8. ExtremeBERT: A Toolkit for Accelerating Pretraining of Customized BERT. (from Tong Zhang)

9. ConvLab-3: A Flexible Dialogue System Toolkit Based on a Unified Data Format. (from Jianfeng Gao, Minlie Huang)

10. Chaining Simultaneous Thoughts for Numerical Reasoning. (from Minlie Huang)

本週 10 篇 CV 精選論文是:

1. AFR-Net: Attention-Driven Fingerprint Recognition Network. (from Anil K. Jain)

2. Instance-Specific Image Goal Navigation: Training Embodied Agents to Find Object Instances. (from Jitendra Malik)

3. Shape-Guided Diffusion with Inside-Outside Attention. (from Trevor Darrell)

4. Scaling Language-Image Pre-training via Masking. (from Kaiming He)

5. SinGRAF: Learning a 3D Generative Radiance Field for a Single Scene. (from Leonidas Guibas)

6. Procedural Image Programs for Representation Learning. (from Antonio Torralba, Phillip Isola)

7. Exploiting Category Names for Few-Shot Classification with Vision-Language Models. (from Ming-Hsuan Yang)

8. LUMix: Improving Mixup by Better Modelling Label Uncertainty. (from Alan Yuille, Philip Torr)

9. Localization vs. Semantics: How Can Language Benefit Visual Representation Learning?. (from Alan Yuille)

10. Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning. (from Alan Yuille)

本週 10 篇 ML 精選論文是:

1. Self-Supervised Continual Graph Learning in Adaptive Riemannian Spaces. (from Philip S. Yu)

2. PyTorch Adapt. (from Serge Belongie)

3. Towards True Lossless Sparse Communication in Multi-Agent Systems. (from Katia Sycara)

4. MegaBlocks: Efficient Sparse Training with Mixture-of-Experts. (from Matei Zaharia)

5. Knowledge-Aware Federated Active Learning with Non-IID Data. (from Dacheng Tao)

6. Responsible Active Learning via Human-in-the-loop Peer Study. (from Dacheng Tao)

7. Will My Robot Achieve My Goals? Predicting the Probability that an MDP Policy Reaches a User-Specified Behavior Target. (from Thomas G. Dietterich)

8. DimenFix: A novel meta-dimensionality reduction method for feature preservation. (from Evangelos Milios)

9. Supervised Contrastive Prototype Learning: Augmentation Free Robust Neural Network. (from Laurent Itti)

10. Quantization-aware Interval Bound Propagation for Training Certifiably Robust Quantized Neural Networks. (from Daniela Rus)

相關文章

深度學習,撞牆了

深度學習,撞牆了

早在 2016 年,Hinton 就說過,我們不用再培養放射科醫生了。如今幾年過去,AI 並沒有取代任何一位放射科醫生。問題出在哪兒? 近年...