7 Papers & Radios|無需注意力的預訓練;被GPT帶飛的In-Context Learning

本週重要論文包括當預訓練不需要注意力時,擴展到 4096 個 token 也不成問題;被 GPT 帶飛的 In-Context Learning 背後是模型在秘密執行梯度下降。

目錄:

  1. ClimateNeRF: Physically-based Neural Rendering for Extreme Climate Synthesis
  2. Pretraining Without Attention
  3. One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations
  4. SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions
  5. Ab Initio Calculation of Real Solids via Neural Network Ansatz
  6. Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers
  7. Experimental Indications of Non-classical Brain Functions
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音訊)

論文 1:ClimateNeRF: Physically-based Neural Rendering for Extreme Climate Synthesis

  • 作者:Yuan Li等
  • 論文地址:https://arxiv.org/pdf/2211.13226.pdf

摘要:本文介紹了一種將物理模擬與場景 NeRF 模型相融合的全新方法,生成這些場景中物理現象的逼真影片。就具體效果而言,該方法能夠逼真地模擬出氣候變化可能產生的影響 —— 在一場小範圍的洪水爆發後,操場會變成什麼樣子?大洪水後呢?暴雪後呢?

推薦:一秒起霧、入冬、發洪水,新 NeRF 模型渲染出逼真物理大片。

論文 2:Pretraining Without Attention

  • 作者:Junxiong Wang 等
  • 論文地址:https://arxiv.org/pdf/2212.10544.pdf

摘要:本文提出了雙向門控 SSM(BiGS)模型,結合基於狀態空間模型(SSM)的 Routing 層和基於乘法門的模型架構,在不使用注意力的情況下能夠複製 BERT 預訓練結果,並可擴展到 4096 個 token 的長程預訓練,不需要近似。

推薦

推薦:預訓練無需注意力,擴展到 4096 個 token 不成問題,與 BERT 相當。

論文 3:One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations

  • 作者:Yiming Zhu 等
  • 論文地址:https://arxiv.org/pdf/2210.07883.pdf

摘要:最近用文字來引導圖像編輯取得了非常大的進展以及關注度,特別是基於去噪擴散模型如 StableDiffusion 或者 DALLE 等。但基於 GAN 的文字 – 圖像編輯依舊有一些問題等待解決,例如經典的 StyleCILP 中針對每一個文字必須要訓練一個模型,這種單文字對單模型的方式在實際應用中是不方便的。

本文提出 FFCLIP 並解決了這個問題,針對靈活的不同文字輸入,FFCLIP 只需要一個模型就能夠對圖片進行相應的編輯,無需針對每個文字重新訓練模型,並且在多個資料集上都取得了非常不錯的效果。本文已被 NeurIPS 2022 接收。

推薦

推薦:文字圖片編輯新正規化,單個模型實現多文字引導圖像編輯。

論文 4:SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions

  • 作者:Yizhong Wang 等
  • 論文地址:https://arxiv.org/pdf/2212.10560v1.pdf

摘要:華盛頓大學等機構近期聯合發表了一篇論文,提出的新框架 SELF-INSTRUCT 通過引導模型自己的生成過程,提高了預訓練語言模型的指令遵循能力。SELF-INSTRUCT 是一種半自動化過程,使用來自模型本身的指令信號對預訓練的 LM 進行指令調整。

推薦

推薦:無需人工標註,自生成指令框架打破 ChatGPT 等 LLM 的成本瓶頸。

論文 5:Ab Initio Calculation of Real Solids via Neural Network Ansatz

  • 作者:Xiang Li 等
  • 論文地址:https://www.nature.com/articles/s41467-022-35627-1

摘要:機器學習能夠處理海量資料,解決複雜場景下的科學難題,帶領科學探索抵達過去無法觸及的新領域。比如 DeepMind 用人工智慧軟體 AlphaFold 對科學界已知的幾乎所有蛋白質結構進行了高度準確的預測;Christian Lagemann 提出的基於深度學習的粒子圖像測速 (PIV) 方法一改原本的純手動設置參數,大大提升模型的應用範圍,對汽車、航空航天和生物醫學工程等多個領域的研究具有至關重要的意義。

最近,字節跳動 AI Lab Research 團隊和北京大學物理學院陳基課題組的工作《 Ab initio calculation of real solids via neural network ansatz》 給出了研究凝聚態物理的新思路,該工作提出了業內首個適用於固體系統的神經網路波函數,實現了固體的第一性原理計算,並將計算結果推向了熱力學極限。其有力地證明了神經網路是研究固體物理的高效工具,也預示著深度學習技術將在凝聚態物理中發揮越來越重要的作用。相關研究成果於 2022 年 12 月 22 日發表於國際頂級刊物 Nature Communication 雜誌上。

推薦

推薦:業界首個適用於固體系統的神經網路波函數,登上 Nature 子刊。

論文 6:Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers

  • 作者:Damai Dai 等
  • 論文地址:https://arxiv.org/pdf/2212.10559v2.pdf

摘要:In-Context Learning(ICL)在大型預訓練語言模型上取得了巨大的成功,但其工作機制仍然是一個懸而未決的問題。本文中,來自北大、清華、微軟的研究者將 ICL 理解為一種隱式微調,並提供了經驗性證據來證明 ICL 和顯式微調在多個層面上表現相似。

推薦

推薦:被 GPT 帶飛的 In-Context Learning 為什麼起作用?模型在秘密執行梯度下降。

論文 7:Experimental Indications of Non-classical Brain Functions

  • 作者:Christian Matthias Kerskens 等
  • 論文地址:https://iopscience.iop.org/article/10.1088/2399-6528/ac94be

摘要:幾十年來,科學家們一直在探索人腦的計算和思考機制。但人腦的構成太過複雜,包含幾百億個神經元,相當於上萬億塊晶片,我們很難一探究竟。因對黑洞的研究貢獻而獲得諾貝爾物理學獎的羅傑・彭羅斯曾大膽地提出「量子意識」觀點,即人腦本身就是量子結構,或者說是量子計算機。但這一觀點一直備受質疑。

近期都柏林聖三一大學的一項研究表明我們的大腦執行的是量子計算,該研究認為人腦中存在與意識相關的大腦功能介導的糾纏。如果這些大腦功能必須以非經典的方式運作,那麼這意味著意識是非經典的,即大腦的認知過程涉及量子計算。

推薦

推薦:大腦的思考是量子計算,這一猜測有了新證據。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本週更多重要論文,包括NLP、CV、ML領域各 10 篇精選,並提供音訊形式的論文摘要簡介,詳情如下:

本週 10 篇 NLP 精選論文是:

1. Does unsupervised grammar induction need pixels?. (from Serge Belongie, Kilian Q. Weinberger, Jitendra Malik, Trevor Darrell)

2. Understanding Stereotypes in Language Models: Towards Robust Measurement and Zero-Shot Debiasing. (from Bernhard Schölkopf)

3. Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation. (from Cordelia Schmid, Ivan Laptev)

4. Cross-modal Attention Congruence Regularization for Vision-Language Relation Alignment. (from Ruslan Salakhutdinov, Louis-Philippe Morency)

5. Original or Translated? On the Use of Parallel Data for Translation Quality Estimation. (from Dacheng Tao)

6. Toward Human-Like Evaluation for Natural Language Generation with Error Analysis. (from Dacheng Tao)

7. Can Current Task-oriented Dialogue Models Automate Real-world Scenarios in the Wild?. (from Kyunghyun Cho)

8. On the Blind Spots of Model-Based Evaluation Metrics for Text Generation. (from Kyunghyun Cho)

9. Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval. (from William W. Cohen)

10. The Impact of Symbolic Representations on In-context Learning for Few-shot Reasoning. (from Li Erran Li, Eric Xing)

本週 10 篇 CV 精選論文是:

1. Revisiting Residual Networks for Adversarial Robustness: An Architectural Perspective. (from Kalyanmoy Deb)

2. Benchmarking Spatial Relationships in Text-to-Image Generation. (from Eric Horvitz)

3. A Brief Survey on Person Recognition at a Distance. (from Rama Chellappa)

4. MetaCLUE: Towards Comprehensive Visual Metaphors Research. (from Leonidas Guibas, William T. Freeman)

5. Aliasing is a Driver of Adversarial Attacks. (from Antonio Torralba)

6. Reversible Column Networks. (from Xiangyu Zhang)

7. Hi-LASSIE: High-Fidelity Articulated Shape and Skeleton Discovery from Sparse Image Ensemble. (from Ming-Hsuan Yang)

8. Learning Object-level Point Augmentor for Semi-supervised 3D Object Detection. (from Ming-Hsuan Yang)

9. Unleashing the Power of Visual Prompting At the Pixel Level. (from Alan Yuille)

10. From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models. (from Dacheng Tao, Steven C.H. Hoi)

本週 10 篇 ML 精選論文是:

1. An Information-Theoretic Approach to Transferability in Task Transfer Learning. (from Leonidas Guibas)

2. Pre-Trained Image Encoder for Generalizable Visual Reinforcement Learning. (from Yang Gao)

3. Safe Evaluation For Offline Learning: Are We Ready To Deploy?. (from Peter Stone)

4. ReCode: Robustness Evaluation of Code Generation Models. (from Dan Roth)

5. A Non-Asymptotic Analysis of Oversmoothing in Graph Neural Networks. (from Ali Jadbabaie)

6. Werewolf Among Us: A Multimodal Dataset for Modeling Persuasion Behaviors in Social Deduction Games. (from James M. Rehg)

7. Provable Fairness for Neural Network Models using Formal Verification. (from Steven Skiena)

8. Efficient Conditionally Invariant Representation Learning. (from Arthur Gretton)

9. Managing Large Dataset Gaps in Urban Air Quality Prediction: DCU-Insight-AQ at MediaEval 2022. (from Alan F. Smeaton)

10. Dexterous Manipulation from Images: Autonomous Real-World RL via Substep Guidance. (from Sergey Levine)

相關文章

深度學習撞牆了

深度學習撞牆了

早在 2016 年,Hinton 就說過,我們不用再培養放射科醫生了。如今幾年過去,AI 並沒有取代任何一位放射科醫生。問題出在哪兒? &g...

這個陌生又熟悉的光點

這個陌生又熟悉的光點

他們旅行了很長一段時間,並沒有發現什麼東西。最後他們察覺到一個小光點,這就是地球……(但是)他們沒有絲毫的理由會猜想到,我們和這個星球上的同...