Google、Meta、英偉達……巨頭扎堆的AIGC,國內發展如何了?

時下,AI領域最火的技術非AIGC莫屬。去年三月,OpenAI發佈了人工智慧繪畫產品DALL·E,後來升級到DALL·E 2。Google和Meta緊隨其後,並且進一步發展出文字轉視訊功能。今年8月,Stable Diffusion正式開源。而在日前,英偉達也宣佈加入AIGC的賽道,發佈了Magic3D。

AIGC究竟如何從前些年的默默無聞,到這兩年的火爆網路?是什麼變數促成了這一技術的爆發,又是哪些潛在趨勢在助推這股潮流?我們國內目前在這一技術領域的發展現狀又如何?

AIGC火爆的背後:Diffusion Model的出現

AI生成其實一直都有,在2021年之前主要通過NLG生成文字,而要完成圖片等視覺藝術品,則要基於生成對抗網路GAN,通過生成器和判別器不斷對抗來訓練模型。

通過GAN的演算法訓練,可以生成不錯的圖形,但也有很多問題難以解決,比如圖形結果雷同,多樣性缺乏;生成器有上升瓶頸,從而造成模式坍縮;以及訓練難度高和成本大。

所以,儘管圖形生已有不短的歷史,包括像BigGAN,StyleGAN等的技術突破,但始終未能讓產品真正商業化,只能停留在新奇好玩的階段,直到Diffusion Model(擴散模型) 出現。

通過馬爾科夫鏈,將文字描述文字經過處理後當做噪聲不斷添加到原圖當中,從而讓神經網路從無到有的生成了圖片,這是擴散模型的作用原理。通過該模型,演算法訓練變得更加簡潔,只需要添加大量圖片,生成的結果相較GAN更具多樣性。

但自2015年誕生的前五年,擴散模型並沒有引起業界關注。直到2020年,一篇名為Denoising Diffusion Probabilistic Models 的論文終將這一模型用在了圖像的生成上。

反應極快的OpenAI,在隔年1月即公佈將出品Dall-E。並宣稱Diffusion Model擊敗了GAN(論文:Diffusion Models Beat GANs on Image Synthesis),從而似乎為AI生成的工程落地指明瞭方向。

更多推動力:大模型、多模態、開源模式

更多推動力:大模型、多模態、開源模式

同樣是OpenAI,兩年前推出1750億參數的預訓練語言大模型GPT-3,至此開始,千億規模的大模型訓練成為流行趨勢。但在國內,一方面因為接口開放的限制,AI生成相關應用難以使用;另一方面,大模型訓練成本高企,讓不少企業望而卻步。這些導致了AI生成在國內無論是應用,還是形成產業都未能起勢。但在近來,還是有不少國內企業開始關注大模型訓練,走在前面的公司已經展開訓練。

同樣非常火的多模態,對於發展AIGC來說,重要性體現在打破不同模態的資料,包括文字、圖像、視訊、音訊等資料之間的分界線,從而在模型的構建上趨向統一。多模態已經通過 DALL-E、Stable Diffusion的應用日趨成熟。

而除了技術本身,開源模式也進一步推動了AIGC的發展,AIGC火爆也有像Stable Diffusion正式開源(模型權重和程式碼)的功勞,這意味著所有人都可以通過開源程式碼做出文字生成圖像的產品,因而Stable Diffusion也在GitHub上長期霸榜。

彼岸到此岸:國內AIGC的產業先鋒們

彼岸到此岸:國內AIGC的產業先鋒們

然而,對於中文世界的創作者來說,無論是在 DALL-E 2 還是在Stable Diffusion上操作,不僅需要對英文Prompts的準確表達極盡思考,在英文語境下想要生成真正地道中國風的畫作也是難上加難。

實際上,國內已經有一些AIGC的行業先鋒推出了中文版的AI生成產品。

緊隨Stable Diffusion,心辰科技(盜夢師團隊)在不到一個月時間,於今年8月底上線 AI 作畫產品「盜夢師」。僅用1秒出圖,日留存率接近50%,上線不到兩個月生成的圖像數量已經達到1千萬張,且已經開啟商業化。

盜夢師生成的畫作

盜夢師生成的畫作

本月初,第一個中文版本的 Stable Diffusion 模型「太乙 Stable Diffusion」正式開源。2022 年 7 月,IDEA CCNL開源了第一個中文CLIP模型,目前已經有 4 個版本。太乙 Stable Diffusion上線二十天,下載量即超過10萬,成為全球排名第三的Stable Diffusion模型。

太乙 Stable Diffusion生成的畫作「飛流直下三千尺 ,唯美,插畫」

本月中,智源研究院大模型研究團隊開源最新雙語AltDiffusion模型,並在近日升級至 AltDiffusion-m9版本,全面支持中、英、西、法、日、韓、阿、俄、意等九種不同語言的文圖生成任務。該模型已躋身 GitHub Python 開源項目每日熱榜,paperwithcode 網站熱度前5。

AltDiffusion生成的畫作

AltDiffusion生成的畫作

那麼,這些惟妙惟肖的畫作究竟是如何生成的?擴散模型能夠為AI生成帶來哪些變革?多模態、大模型又給AI生成帶來哪些助推力?AIGC在國內發展現狀如何?又該如何實現商業化?

今晚19:30,我們請到盜夢師、太乙 Stable Diffusion、AltDiffusion的創作者和資深技術專家,共同探討、解密AIGC的背後有哪些玄機。

掃碼,預約直播,等你來~

掃碼,預約直播,等你來~

相關文章

重磅!PyTorch 落地 Linux 基金會

重磅!PyTorch 落地 Linux 基金會

整理 | 蘇宓 近幾年間,隨著人工智慧的迅速普及與落地應用,相關基礎架構得到了很大的突破,如深度學習領域誕生了不少非常實用的平臺和框架,如 ...