像素時代的黃昏和「淘寶叛軍」

淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。

像素時代的黃昏和「淘寶叛軍」

文 | 史中

如果我們的後代站在未來回望,很可能會把60後、70後、80後、90後、00後、10後,都歸為「同一代人」,這個時代就叫「像素時代」。

而從「20後」開始,新一代人出現了,他們的時代叫作「體素時代」。

此時此刻,我們也許正站在歷史的轉折點上,少數人歡欣鼓舞,而多數人懵然無知。

我厚顏無恥地希望,這篇文章也許能成為大家理解未來的一個小小扳手。

(一)像素時代的「黃昏」

用輕鬆的方式開場吧,來回顧一下俺們的共同回憶。

比如,我們一起經歷過戰爭與和平。

體驗過愛與死

體驗過愛與死。

見證了榮耀與夢想

見證了榮耀與夢想。

也品嚐過柴米油鹽、江湖恩怨

也品嚐過柴米油鹽、江湖恩怨。

也品嚐過柴米油鹽、江湖恩怨

但是,你有沒有發現一個問題——無論如何努力回想,這些經典的畫面都只能以「平面」的方式在我們腦海裡放映:

魂鬥羅、坦克大戰當然本身就是平面遊戲;

《大話西遊》、「奧運開幕」也是同樣,我們只能站在攝影師的角度去還原當時的場景,至於鏡頭裡恰好背對我們的人,當時他們有怎樣的表情、狀態,將成為一個謎,重溫者永遠不得而知。

網頁就更是平面的了,一般人根本不會提出「網頁的背面長什麼樣」這種蛇精病問題——它就沒有背面。

平面資訊是如此深刻地滲入我們的生活,以至於萬物都離不開一個關鍵詞:「像素」。

螢幕要看像素,攝像頭要看像素,照片、視訊都要看像素。仔細想想,世界上沒有任何一個專業技術詞彙能像「像素」這樣被普通大眾所理解,普及到一個農村阿姨也能脫口而出。

看到這兒,你也許有點摸不著頭腦——像素有啥不好?我從小喝到大,生活中一切需求都能滿足啊。。。

你看,有人把電影的演職員表展開,就是一大

圖片。

這裡按下暫停鍵,我必須強行問你一句:真的是這樣麼?

如果把「像素」換成「體素」呢?

1、防止有淺友不知道,我先解釋一下什麼是「體素」。

其實很容易理解:在平面空間組成資訊的元素叫像素,在立體空間裡組成資訊的元素就叫體素。(一個像素包含xy兩個參數,而一個體素包含xyz三個參數。)

比如:《仙劍奇俠傳》裡李逍遙就是用「像素」拼成的,而在《我的世界》裡,主角史蒂夫就是由體素組成的。

2、再解釋一下什麼是「體素時代」。

當日常生活中的大多數資訊都以體素來「標記」和「傳遞」的時候,我們就四捨五入邁進了體素時代。

舉個簡單的例子:

你拼了一個很好看的汽車模型,想跟朋友顯擺一下。

今天的操作是,你選一個(或幾個)角度拍「照片」發到朋友圈,大家可以放大、縮小,隨便看;

但未來很可能是,你用手機環繞模型拍一圈,它就會在三維世界自動生成一個立體的模型,你把這個「影像」發到朋友圈,大家就可以隨意轉動,相當於從無數個角度無死角欣賞你的作品。

當然,你有沒有勇氣讓別人無死角欣賞自己的作品是另一個問題,但這裡我想說明的是:

「體素時代」能夠傳遞的資訊,比「像素時代」要完整和豐富得多。

就像這樣↓↓↓

你還記得三體的結尾有一個經典情節不?

你還記得《三體》的結尾有一個經典情節不?

太陽系被未知文明的二向箔從3D狀態「拍」成2D狀態。「程心旅行團」一行在冥王星上目睹了地球「躺平」的全過程。

文中描述,三維世界的地球內部有豐富的結構,在不損失資訊的情況下變成二維的,面積就會變得巨大,像一張宇宙烙餅。

難以想象麼?沒關係,在B站上有同學(@Ele實驗室)用數學方法模擬了這個過程,就如下圖:

(連結附後,感興趣淺友可以移步看完整版)

地球的故事告訴我們,如果「體素時代」的資訊量是「弱水三千」,像素時代就只是「取了一瓢飲」。那,有沒有一種可能:踏進體素時代,就像一個人住過別墅花園,再也回不去鴿籠蝸居?

體素時代早有徵兆:

比如,《駭客帝國》開創的「子彈時間」和《阿凡達》開創的「3D 電影」;比如,以《絕地求生》《堡壘之夜》為代表的第一人稱遊戲;

比如,Oculus VR 眼鏡、正在趕來的蘋果 AR 眼鏡和各路牛鬼蛇神的元宇宙雛形。

Meta 的「VR 社交平臺」Horizon Worlds

這些嘗試的意義在於,它們為世界積累了「3D建模系統」、「虛擬渲染引擎」、「頭顯硬體」等諸多技術。這些技術,可以看做是涓滴細水,而它們終究會匯在一起,成為「時代的泥石流」。

現在,泥石流近在眼前。

最先進入體素時代的將會是我們生活的哪個部分呢?

我盲猜有三個:電商、社交、搜尋。

這三個領域,熟不熟悉?夢迴2000年,網際網路的流金歲月,我們的生活不恰恰也是從這三個領域開始變革的嗎?

如果,我們20年前經歷的那一波以「像素」為代表的的科技浪潮,在今天以同樣摧枯拉朽的姿勢重新席捲一遍——我們也許將看到體素時代的淘寶、微信和百度。

這不是在憑空想象,端倪已經出現。

就在前兩天,我和淘寶的幾個前沿技術團隊聊了聊。在他們眼裡,體素時代正如黎明一般迫近。而這群技術理想主義者,趁其他人還沒睡醒,就已經背上行囊向星辰大海進發了。

(二)前輩們留下的「兩把鑰匙」

(二)前輩們留下的「兩把鑰匙」

說實話,現在為「體素時代」擂鼓助威,我心裡也有點發虛。

為啥呢?因為歷史上,這個時代四捨五入已經「來」過一次,而且又走了。。。

那是遙遠的2016年,還沒有國際形勢的劍拔弩張,只有人們對愛與科技的幻想。

那一年,谷歌地球的創始人,整天幻想怪物出沒的老男孩漢克搞出了《PokémonGo》(寶可夢Go),人們拿著手機對準無趣的草叢和平常巷陌,就能發現寵物小精靈隱藏其中,一個精靈球甩過去,捕獲神獸,爽點爆棚。

《PokémonGo》和漢克

VR/AR 的熱潮就這麼出現了。

彼時尚未嗅到命運血腥的暴風影音信心滿懷推出 VR 眼鏡;光線傳媒、愛奇藝這樣的頂級內容製作商也開始重金製作 VR 影片;明星初創公司 MagicLeap 在網上強推了一個短片——籃球場的木地板上,一隻鯨魚騰空躍起,收穫四座尖叫。

當時的淘寶也深受鼓舞,在2016年的「淘寶造物節」上推出了VR購物模組——「Buy+」。人們不用買VR眼鏡,也能在手機螢幕上體驗到「3D購物」的樂趣。

現在說起「Buy+」,其實很多人都不太記得。

這是因為,Buy+本身就是實驗性的。雖然大家第一感覺很驚豔,但在那個技術尚不成熟的世界裡,要把「腦袋」轉到對準地上的箭頭才能走路,可以說「舉步維艱」;好不容易走到貨架前,商品種類也是有限的,還不能享受和店家講價的快感。體驗並不完善。

所以,嚐鮮之後,大多數人也就淡忘了。

所以,嚐鮮之後,大多數人也就淡忘了
但從歷史的角度看,Buy+ 意義重大

但從歷史的角度看,Buy+ 意義重大。

因為它證明了「體素時代」雖好,但沒辦法跑步進入。而且,它還用自己的經驗教訓給後人留下了進入體素時代的「兩把鑰匙」:

第一把鑰匙:人人都得用得起;

這裡的人人包括兩個,賣家和買家。

當時為一套洗髮水3D建模所花的錢,恨不得能買半車洗髮水,除了大廠,又有幾家公司用得起呢?而且,如果模型稍微精細一點,一般的手機就跑不起來,得用上專業的「頭顯設備」,這又有幾個使用者願意用呢?

所以,大幅降低「建模建設」和「模型渲染」的成本,就是必要條件。

第二把鑰匙:體驗不能凹造型

第二把鑰匙:體驗不能凹造型。

還拿洗髮水舉例,這類生活用品人人都熟悉,連質感氣味形狀都知道,好像不必通過3D模型了解。。。這樣的場景就很難給人提供新的刺激。

所以,找到能發揮3D模型功能的獨特場景,也是必要條件。

2016年的那波 AR/VR 熱潮很快就過去了。但「降低成本」和「尋找場景」這兩把鑰匙卻傳給了後來人。(這兩把鑰匙我用綠色字型表示,後面說到鑰匙的時候,我還會用綠色標註。)

灰燼之下,開始有了新芽。

(三)體素時代的「商品詳情頁」

不妨把進度條拉到2021年,也就是我們今天故事的前夜。

你會發現,那時的「淘寶App」就像一個大逃殺戰場:很多當年大開大合的 VR/AR 功能都已殘血進入了蟄伏期,而一些實用的小功能,反而因為使用者的支持「苟」住了。

比如,「AR試」。

也就是通過攝像頭來試鞋、試妝、試表和試眼鏡。

也就是通過攝像頭來試鞋、試妝、試表和試眼鏡

「AR試」之所以能通過大逃殺活下來,恰恰是因為手握那兩把鑰匙:1)一目瞭然就能看到商品上身的效果,給使用者提供了很實在的參考,這是場景合適;2)運用了一種名叫 WebXR 的輕量化技術,幾乎所有手機都能無壓力地運行3D計算,這是成本低廉。

注意,剛才我提到一個生詞,WebXR。

多介紹幾句,WebXR 最早是2016年由 Mozilla(就是做火狐瀏覽器那個)的幾位技術宅提出的框架,它的理想就是:手機上不用下載任何軟體,僅僅打開瀏覽器就能進入3D世界。(XR的意思就是AR、VR、MR,什麼R都行)

那幾年,雖然 XR 產業遭遇了血雨腥風,但 WebXR 技術本身卻在社區的貢獻之下日益精進,越來越輕量化,越來越親民。

好了,有了這些鋪墊,現在請上我們今天第一位主角,承越。

承越是個資深 XR 愛好者,2016年的時候就吃了螃蟹——當時他看完 HTC Vive 頭顯的發佈會,直接上頭,下單剁手。

(和我打視訊電話中的)承越

(和我打視訊電話中的)承越

2021年時,他在淘寶的技術團隊負責會場、頻道的開發,一方面看到「AR試」很受歡迎,一方面看到 WebXR 在互動技術上有了新進步,他又有點上頭:

既然手錶、鞋,這種東西能線上試,那麼更復雜的東西,例如小家電的拆裝和使用,能不能線上試呢?

想到這,他坐不住了,帶著幾位同學成立了一個「f(x)團隊」,嘗試把 WebXR 這幾年的最新技術推進實戰。

調研了半天,他們決定先做一個「商品說明書」。

啥是說明書?

我們分析發現了一個有趣的現象:人們瀏覽淘寶商品的時候,通常會在「物品+場景」那張圖上停留很長時間,這說明人們不止關心商品本身,更關心商品和環境在一起的資訊。也就是,「商品應該用在哪裡」

比如一個吸塵器,有很多元件、吸頭,它們怎麼裝配才能吸地毯,怎麼裝配才能吸瓷磚呢?

這些資訊雖然在家電說明書裡都有記載,但人們看上去不直觀,我們就把這些元件都做成3D模型,使用者在3D空間裡拆裝、使用,很快就能明白它的用法,這就是「商品說明書」啦。

承越說。

我仔細體會了一下,這麼說來,要想做出一個好的「商品說明書」,承越他們不僅需要把「商品本身」變成「可拆裝的3D模型」,還得把「商品使用的場景」變成「3D空間」。

但這件事兒沒有說起來那麼容易——在商品過剩的時代,使用者是很挑剔的,你這說明書但凡「不流暢」或者「不真實」,大家就會覺得沒必要在這浪費時間,轉頭就走。。。

於是,第一個坑來了。

悖論擺在面前:要保證流暢,3D模型就要精簡;可模型一精簡,就會失真,變成五毛特效。

思來想去,承越他們只好對模型分情況「雕刻」——使用者可以互動的地方,模型就儘量做得精細,使用者不互動的地方,就儘量把模型做小。

說到互動,第二個坑來了

說到互動,第二個坑來了。

如果想實現「互動」功能,就必須往這些模型裡注入「靈魂」,也就是「功能程式碼」。但這些程式碼也會佔很大一部分空間。。。

承越告訴我,標準的 WebXR 框架包括很細緻的互動動作。比如,你的手放到一個物體上,可以觸發一個命令;手指移動,也會觸發命令;移動停止也能觸發命令,抬起手指還會觸發一個命令。

作為一個框架,設計的時候當然要考慮所有情況,無可厚非。但如果直接拿來就用,就會讓最終的成品充滿無用程式碼,變得很臃腫。直接表現就是——使用者點開之後,要看著進度條載入半天。

所以,要想做出好東西,精簡「WebXR」的框架是不可省略的動作。

承越說,為了搞清楚一堆程式碼之間的調用關係,他們把所有功能都畫在牆上,然後用「連連看」把不同模組的關係搞清楚,最後,再一根根剪斷。

有點像拆彈部隊,面對一堆雜亂無章的線,卻不能犯錯誤。一旦把有用的功能給剪掉,就會「爆炸」。

他笑。

從2022年春節開始,雕刻了兩個月,成果斐然,f(x)團隊總算把這套 Demo 從最初的幾百M精簡到了10M以內。這就已經相當於一個短視訊的大小了,普通手機、普通網速下載起來也沒壓力。

至此,不妨再跟著我想象一下這個說明書的樣子:

1)一個3D小房間,裡面有一個(或多個)商品。

2)你可以進入這個房間,仔細研究商品的功能,而商品各個部位的屬性、參數,也都用懸浮泡泡的方式展示在旁邊。

3)賽博空間裡,這樣的3D小房間還可以有很多,無窮無盡,他們之間相互連通,你可以走來走去。

你有沒有發現:這個商品的3D小房間,有點像我們熟悉的「商品詳情頁」。而如果佈置妥當,小房間能給你傳達的資訊,其實比詳情頁更多、更直接。

也就是說,「3D商品說明書」只是這個設想的初級階段,未來它很有可能成為新一代的「3D商品詳情頁」。

說到這,你可能就明白了, 承越他們正是在為「體素時代」的到來尋找那把鑰匙——合適的場景。(注意,是綠色字型)

承越幫我設想了一個標準場景:

未來朋友分享給我一個商品,很可能不是商品詳情頁,而是一個「3D房間」的連結,我只要點選,一秒就能進入這個3D房間,在裡面體驗過商品的詳細功能,如果覺得好,就能直接下單購買!

這聽上去還挺酷的。

好,我們繼續。如果你接受了「體素時代會有很多3D房間」這個設定,就一定會想到:未來這些房間裡恐怕需要大量的「3D商品」來填充。

於是,這些3D商品怎麼才能「低成本」、「大量地」建模製作出來,就成了迫切需要解決的問題。

巧了,在淘寶技術團隊,恰好有一群大牛在研究這個問題。

(四)「侵略者」和「造物者」

(四)「侵略者」和「造物者」

2021年春天,友聞開心地一蹦三尺。

纏繞在他心頭的一團亂麻,被一把利劍劈開。

這團「亂麻」是啥呢?

多介紹一句背景:友聞帶領一群技術宅,服務於「每平每屋」。應該有不少人用過「每平每屋」,就是阿里巴巴旗下的家居平臺,可以在上面買傢俱,也可以請設計師幫你搞家居設計和裝修。

然鵝,賣家居是個很費勁的事兒,因為傢俱款式和裝修風格各有不同,顧客很難想象出一個沙發放到一種裝修風格里的樣子。。。想象不出來,就不敢買嘛。

所以,最好的辦法就是「先嚐後買」——下單之前,讓設計師先幫你做出一套「3D設計圖」瞧瞧。

就像這樣⇓⇓⇓

就像這樣⇓⇓⇓

但設計師幹活兒是要錢的。一個裝修方案的3D設計最少也得1000塊,一個沙發的手繪3D模型最便宜也要200塊。一般人看到這麼貴,就打退堂鼓了,我還不如去線下傢俱店看看實物呢。。。

所以,友聞和團隊的任務就是:找到一種方法,用計算機來代替人類進行「建模」和「設計」,大大降低「試」的成本。

但是這件事兒談何容易。2020年,友聞和團隊研究了一年,嘗試了三種不同的技術路線,全都沒能成功。。。

友聞

友聞

就在這時,那支「利劍」橫空出世。

這就是谷歌發表在機器視覺頂級會議 ECCV 上的一種演算法:NeRF。

看到這,可能有的淺友心中一驚:頂級會議的學術研究,估計完全看不懂吧。。。放心,後面我會用特別簡單的例子來給你說明白。

NeRF 的核心奧義就是一句話:原本需要「手繪」的3D建模,用「拍照」的方式來實現。

NeRF 建模就像這樣⇓⇓⇓

NeRF 建模就像這樣⇓⇓⇓

當然,建模的話,用一張照片肯定不夠,得從不同角度多拍幾張(或是繞著主體拍一段視訊)——只要角度足夠豐富,就能靠「想象力」把平面上的「像素」還原成空間裡的「體素」。

這個想象的過程,靠的當然不是人腦,而是人工智慧。

NeRF 有牛呢?它被技術宅們形容為:人工智慧對圖形渲染的一次「侵略」。

還是用實力說話吧。你看,給我幾張谷歌街景的照片,就能還你一個3D世界的舊金山。。。

連一座城市都能還原出來,還原一個椅子和櫃子,還不是小菜一碟麼?淘寶商家自己繞著椅子拍一段視訊,就能還原出椅子的3D模型,這簡直是生產力的史詩級飛躍啊。。。

想到這裡,友聞激動萬分。

但很快,問題出現了:

NeRF的論文只是理論上可行,但真按照論文的方法做出來一個模型,要消耗大量計算力,渲染一幀就要20多秒;

有一種叫做 FastNeRF 的改良技術可以解決這個問題,但做出來的模型大小超過1G,完全沒辦法大規模實戰。。。

但作為演算法界的老炮,他是不會輕易認輸的。

一個三維模型,只有表面這一層體素是最有意義的,至於物體的內部和外部的體素,其實並不包含重要資訊。

舉個例子:西瓜之所以看上去是西瓜,不是因為「西瓜瓤」,而是因為「西瓜皮」。你看不到西瓜內部,並不影響你判斷它是個西瓜。

所以,在3D建模過程中,內部體素就可以大幅刪減。

當然,舉西瓜的例子只是為了說明模型精簡的思路。整個2021年春天,團隊都在研究一件事情,怎麼像修剪樹木一樣,既不影響模型表達效果,又能把 NeRF 演算法的計算量簡化到最小。

兩個月後,他們成功地把模型的大小從1G壓縮到了70M,計算效率也比論文中提升了10000倍。

技術宅們趕緊找來一堆桌椅板凳,準備自己用手機拍的視訊渲染一個模型。

新問題很快出現了:這套系統要求拍攝者必須是人肉三腳架、人肉穩定儀。稍微手抖一下,人工智慧就會「想象不出來」,換句話說,就是建模失敗。。。

即便建模成功,也有可能出現一個詭異的情況,那就是:從某個刁鑽的角度看,3D物體會出現缺損。。。

就像這樣⇓⇓⇓

這是為啥呢?

這是為啥呢?

說到這,看來我還得科普一下 NeRF 進行「想象」時候的基本原理。

首先,系統會射出無數根「光線」穿過物體;

首先,系統會射出無數根「光線」穿過物體;

然後,通過不同光線上同一個點的座標,反推計算,就能還原出3D模型中體素的準確位置。

在 NeRF 原版的設計中,從一個點射出的光線都是平行的,就像電影《英雄》裡,秦國士兵射出的箭那樣。結果,就會造成前文所說的「刁鑽角度」下模型缺損的問題。

就像這樣⇓⇓⇓

就像這樣⇓⇓⇓

友聞他們眉頭一皺,計上心來,做了一個小改動,把平行的箭改成了「亂箭」——讓每一條光線隨機選擇角度。這樣,在完全沒有增加計算量的前提下,卻一下子解決了建模質量的問題。

就像這樣⇓⇓⇓

就像這樣⇓⇓⇓

當然,類似這樣的改進,他們還做了好多,就不一一詳解了。這些改進綜合起來,就大大提高了建模的成功率。

就像這樣⇓⇓⇓

就像這樣⇓⇓⇓

到了2021年10月,他們已經能做到:一個普通人,用普通手機,學習拍攝10次就能學會建模。

這時,友聞他們才覺得時機成熟了。

他們給這套系統起名叫做「Object Drawer」,在淘寶內部正式發佈。

說到這,這個故事就和我們今天的主題聯繫起來了:因為友聞他們做的,恰恰就是尋找「體素時代」的那一把鑰匙——「降低成本」。

你看,視訊抖成這樣也沒問題

你看,視訊抖成這樣也沒問題。

說到這我還得提醒你注意:要想真正進入「體素時代」,降低成本絕不能靠粗製濫造的「五毛特效」,華麗逼真的模型是首要前提。

這不,「Object Drawer」 剛剛發佈,就有一些商家申請內測,但是他們用過之後,給出了「吐槽」:

「形狀嘛倒是還原得還可以,但是表面紋理為啥有點模糊啊。。。」

友聞有點撓頭:「紋理」二字,可擊中了人工智慧的軟肋。

因為人工智慧的運算過程的本質是概率推理,這必然會造成相鄰體素的參數有一定的相似性。換句話說,模糊就是人工智慧甩不掉的內在缺陷。。。

但眼看萬里長征已經走了一大半,不能功敗垂成。友聞他們只好研究了另一種方案,把傳統演算法生成的紋理疊加在 NeRF 的模型之上。這樣一來,在計算成本不提升的前提下,一下子就讓表面紋理從「模稜兩可」變成了「高畫質畫質」。

至此,「Object Drawer」 被封裝成了一個非常好用的「攝像頭建模工具」。

雖然在友聞他們看來,Object Drawer 還有很大的進步空間,但不可否認,一個虛擬世界的「模型生產線」已經雛形初現!

注意,3D模型生產線和實物生產線有所不同:

一個以原子為基礎的「物理商品」會隨著時間損壞、變質;但以程式碼為基礎的「3D模型」一旦被製作出來,就永遠光鮮如初。

這些模型會成為賽博世界裡的「基石」,永遠堅硬,而且不斷堆壘。

你有沒有發現,這個過程很像淘寶過去的發展歷程。無數商家們不斷把自己的商品拍照上傳,這些數以億計的照片積累起來,就成為蘊含資料價值的金礦——可以通過人工智慧學習服務商家,也可以用於未來虛擬空間的設計和搭建。

從這個角度理解,3D模型的價值,比圖片的價值只多不少。

當然,這些設想都是後話。眼下,在這些模型積累的過程中,它們能發揮什麼價值呢?

起碼有一條路,已經能走通了:一群技術大牛,正在把這些3D模型塞進主播們的帶貨直播間,把「普通直播間」升級成「3D直播間」。

(五)3D直播間

經常看直播購物的淺友可能知道,現在的直播已經非常「卷」了,主播們光是在鏡頭前耍嘴皮子已經遠遠不夠了。

他們得搞些大場面。

比如李佳琦,他的直播間就會在大促的時候,租下一個巨大的演播室,然後聘請晚會級的燈光、舞美團隊。幾百號人共同協作,才能完成一場直播狂歡。

這是李佳琦日常直播,也需要40-60人的團隊。

但講真,這樣的大場面確實費錢,沒個幾百萬是搞不下來的,不是頭部主播根本不敢這樣玩。

在長孫泰眼裡,這樣的實景直播好是好。。。但也。。。不是很有必要。。。

因為他和團隊可以用一整套3D技術,實現虛擬場景直播——人只要站在綠幕前,就可以被傳送到一個盛大的舞台中央。

這個舞臺可以在深山老林,也可以在古堡花園,可以漫天飛著鯨魚,也可以建在月球的環形山裡,總之,壓根不用受物理定律的限制。。。

這不,2021年的「618 大促」,小米在天貓進行了一場盛大的帶貨直播。

他們使用的技術就是「3D直播間」。

注意,這些舞臺元素不是隨便「Ctrl+V」過來的妖豔賤貨,而是專門為這場直播從頭設計的。但即便是專門團隊製作了整套舞臺3D形象,成本也只是幾萬元量級,比搭建實景舞臺便宜得多。

這是小米的直播間

長孫泰伸出三個指頭,給我科普:「凡是賣貨的場景,都分為三個要素:人、貨、場。」

所謂人,就是主播,用綠幕摳圖的方法來捕捉影像。(當然也可以是數字人,這裡篇幅有限不討論了。)

所謂貨,就是要賣的東西,它可以是主播手上拿著實物,也可以以「3D模型」的方式出現在主播身邊的「虛空」中。

所謂場,就是舞臺。

對於「3D直播間」來說,場,也就是舞臺是最複雜的。

之所以複雜,還是因為要求高。由於直播效果是要和專業的舞臺相對標的,所以這些背景模型沒辦法做到像友聞他們用 Object Drawer 掃描出來的模型那麼小。

這就造成兩個結果:

1、舞臺目前還需要專業團隊來製作;

2、要想把這個舞臺運行起來,需要一個配置非常好的電腦。(手機暫時不行)

退回到2021年夏天,如果你想搞一個3D直播,需要有一個小團隊去到你家輔助你:

一部分人負責支綠幕、打光;一部分人操作電腦,在旁邊把人物影像和虛擬背景合成起來。

估計你也感受到了,這樣的操作臨時搞一兩次還可以,但好像不能作為標準方法大量推廣。

原因就是——這樣的成本太高。

這麼高昂的成本,是無法帶領廣大主播進入「體素時代」的。

於是,整個2021年下半年,長孫泰和團隊就在嘗試把這一整套系統搬到雲端。

他們要達到的目標就是:

1、主播只需要像平常一樣直播,可以有綠幕也可以沒有綠幕,打光更好不打光也行,系統都能自動把他們的人像摳出來。

2、3D舞臺和3D商品的計算全部在雲端運行。主播的人像傳到雲端,和背景疊加之後,直接傳輸到千萬剁手黨的手機上。

這樣一來,不用專人去現場輔助直播,成本直接大幅降低——無論是大主播還是小主播,就都能方便地搞出自己的「3D直播間」。

這是雲上XR直播的全流程

長孫泰提醒我:「虛擬商品」這樣的資產可以積累,「虛擬舞臺」這樣的資產也是可以積累的。

不妨拿樂高積木打比方:

樂高積木生產的過程固然比較複雜,需要在工廠裡實現;

但是一旦生產出來,再用這些積木拼插出無數有趣的場景,就變得簡單了,普通人也能玩得轉。

主播可以買來「積木」自己拼搭,這就是它私有的直播間(不與別人分享);主播也可以選擇在淘寶上直接使用公共3D直播間,在上面做個性化微調。

這樣,使用「公共3D直播間」的主播越多,平攤下來,製作成本就越低。

假如製作一個精美的舞臺用了5萬塊,結果有5萬個主播都選擇共用,那就相當於每人眾籌1塊錢。

長孫泰

長孫泰

說到這兒,我們不妨回到歷史的上空,俯視現在這個時間點已有的一切:

我們正在擁有價格低廉的「3D模型」,也有了價格低廉的「3D房間」和「3D直播間」,它們共同構成了「體素世界」的雛形。

接下來,終於到了靈魂拷問:

普通人(也就是你和我)目前只能隔著手機螢幕*觀察*和*控制*這個世界,但不能方便地「置身其中」。

之所以這樣,是因為我們還缺乏一個成本低廉,表現穩定的「任意門」,這個任意門,就是「XR 眼鏡」。

當然,無數技術人曾經和正在嘗試造出這扇門,比如「先烈」 Google Glass,當紅小生 Meta 的 VR 眼鏡 Oculus,微軟的 VR眼鏡 Hololens,國產 VR 眼鏡 Pico,還有萬眾期待的「蘋果眼鏡」。(哦還有羅永浩老師即將推出的AR眼鏡)

看架勢,這將是一個史詩級的科技賽道。

看架勢,這將是一個史詩級的科技賽道

從左至右:Hololens、Oculus、Google Glass

但問題在於:在殺手級的「XR 眼鏡」普及之前,寫軟體程式碼的技術宅們不能閒著。他們必須提前「搶跑」,一旦硬體具備,軟體要馬上能安裝進去。

豪贊,就是搶跑的大牛中的一位。

(六)兩個世界間的「掛鉤」

很多人應該都用過淘寶裡的「拍立淘」功能。

你對著一個東西拍張照片,立刻就能搜尋到相關商品。

2019年的拍立淘

在普通人眼裡,這只是一個輔助購物的小特性,可是在豪贊眼裡,這卻是通往未來的絕佳入口。

因為「拍立淘」這個場景,把「現實世界」和「體素世界」聯繫起來了。(注意,我用了綠色字型,說明這是一個合適的場景。)

為什麼這麼說呢?最近,豪贊他們為拍立淘升級了一個「XR看世界」的新功能,從中可以看出端倪。

過去你需要拍一張照片上傳,它才啟動搜尋;現在不用了,你只要拿攝像頭對著世界,系統就實時工作,幫你識別視野裡一切物品,然後跳轉到商品詳情。(這個光說你感受不強,你可以現在就打開拍立淘感受一下。)

「XR看世界」,從本質上來講,就相當於做出了很多包含資訊的「3D泡泡」,追蹤在實體物品之上。

你想想看,如果這時把「手機」換成「XR 眼鏡」,會發生什麼呢?

沒錯,你眼前世界的一切物體,都可以被附加上「3D泡泡」:「

路邊不認識的花,上面有泡泡會顯示它的名稱、習性。

路邊不認識的車,上面有泡泡會顯示它的品牌、價格。

路人穿的衣服很好看, 系統也能在淘寶商品庫裡給你找出來一模一樣的。

怎麼樣,瞬間有了科幻電影裡的感覺了吧?

怎麼樣,瞬間有了科幻電影裡的感覺了吧?

這一整套技術,有一個名字——XR 互動技術。

豪贊就是這方面的專家。

人們通過拍立淘找到了想要的商品,就會購買。在我看來,這些購買就是對我們「XR 互動技術」的認可,是「點贊」。將來,大家不僅可以通過 AR 買東西,還可以通過 AR 看世界,我們就會得到更多的贊,所以我的花名就是「豪贊」!

豪贊老師有理有據給我解釋。

豪贊

豪贊

你有沒有發現,XR互動技術就像「物理世界」和「體素世界」的掛鉤,把兩個原本沒有關係的世界給聯繫起來了。

不過,要獲得「豪贊」並不是那麼容易的事情,因為這個「掛鉤」背後的技術還是挺複雜的。

我們來拆解一下步驟:

1、要把攝像頭採集的視訊切分為一幀一幀的靜態圖片;

2、用人工智慧找到靜態圖片裡究竟包含哪些物體;

3、去雲端的資料庫裡找到和這些物體相關的資訊,然後顯示在物體旁邊的「泡泡」上;

4、運用影像追蹤技術,識別出相鄰兩幀畫面中「同一個物體」,就可以讓「泡泡」在動態視訊中跟隨同一個主體移動了。

這一套流程跑下來,計算量可小不了。

實際上,這麼大的計算量,靠手機或AR眼鏡中的小晶片來搞定,確實是力不從心。。。

所以,豪贊他們處理這個問題的核心思路就是:在整個流程中適當的位置砍掉不必要的計算邏輯。

比如,我們發現人們經常會把A物體放在大腿上。畫面實際上出現了兩個東西:「A物體」和「大腿」。但人工智慧會老老實實進行一系列的計算,然後給出答案:畫面裡有「A物體」和「大腿」。

但你有沒有發現,整個流程裡,識別大腿的計算完全是不需要的?

豪贊解釋。

所以,更好的做法是,畫面裡對「桌面、大腿、手、牆壁」之類的識別動作根本不應該被拉起,這個計算流越早被「壓制」掉,就能越省計算力。

但是,靠技術宅們手動定義哪些東西不應該被識別,這既不準確,效率也不高。

這裡涉及到人工智慧改進的一個通用方法,就是:通過使用者對每次搜尋的點選行為,來修正系統的行為。

比如,最開始系統經常都能搜出「大腿」,但絕大多數使用者不會點選「大腿」,更不會購買「大腿」(也就是不給「大腿」點贊),這個動作就被稱為「負樣本」。

在人們使用「XR 看世界」的功能時,「負樣本」會源源不斷傳送給人工智慧用來學習。

很快,系統就知道大腿是不用識別的,從而越來越精簡,計算量不斷變小。

這就是系統「剪枝」的過程。

不過,僅僅靠「剪枝」,剩下的「主幹」還是太大,沒辦法把計算量控制在設備的能力範圍。

於是,豪贊他們必須做得更多:能不能在不影響AI模型效果的前提下,把「模型的主幹」變小呢?

目測,這種既讓馬兒跑又不讓馬吃草的操作還真能實現。這裡給你隆重介紹一個逆天的「推理引擎」——MNN。

啥是「推理引擎」呢?

我們不妨拿汽車引擎來類比。

同樣是98號汽油,用A引擎就能跑到200km每小時,且油耗很低;用B引擎只能跑到100km每小時,且油耗很高。

這裡的汽油就是前文所說的「AI模型」,用同樣的模型,卻能跑得更快,更省計算力,就是「推理引擎」的職責了。

「用 MNN 引擎,不損失精度的情況下,至少可以把模型減小一半。如果把精度犧牲一點,還可以小得多。」豪贊說。

這麼神奇的嘛?我趕緊給 MNN 的負責人呂行打電話,請他幫我科普其中的黑科技。

呂行

呂行

呂行驕傲地告訴我,MNN 的絕招簡單來說可以分為三層:

1、向上看,市面上存在很多人工智慧訓練框架,他們訓練出來的模型各不相同,但是 MNN 可以把這些模型都統一成 MNN 格式。

2、向下看,市面上存在很多手機晶片類型,MNN 為不同的晶片類型搞出了最適合的運算元運行模式。提前預製好。

3、在中間,人工智慧模型運行時,程序會自動探測自己跑在哪一類晶片上,然後就切換到最合適的預製模式來運行。

這張圖詳細解釋了 MNN 面臨的挑戰,點選可以放大。

聽完他的介紹,我感覺 MNN 有點像一個自動駕駛汽車:走平路就用高檔位,遇到上坡就自動切換成低檔位,路滑就不急踩剎車。

和發動機一樣,推理引擎背後的技術細節是極其精細的,精細到 MNN 團隊已經有很多世界級的論文產出,被頂級會議收錄。限於篇幅,今天我們沒辦法展開了,後面我會找機會專門寫文章討論。

呂行自豪地告訴我,目前阿里巴巴已經有30多個 App 都內建了 MNN 的模組。

目前,MNN加持的輕量級人工智慧可以進行語音識別、視訊內容理解,當然也幫助把「XR 看世界」這把鉤子做得更小巧堅固;未來,如果出現殺手級的「XR 眼鏡」,MNN 肯定也會第一時間適配,把更多普通人拉進體素世界。

(七)數字資產和「淘寶叛軍」

(七)數字資產和「淘寶叛軍」

因為正處疫情期間,所以和這些淘寶技術大牛的聊天都是在線上進行的。

掛斷和大牛們的視訊電話,從「體素世界」的想象中抽離回來,我看看窗外熟悉到有些膩味的風景,總有一種肉身沉重的感覺。

估計很多淺友也開始質疑:

你說得這麼熱鬧,但我們現在不還活在無聊的現實中麼?體素時代到底什麼時候來呢?

我必須承認,客觀上來說,沒有人能精確預言一個時代的到來。

而且,對於一項技術的過度關注,反而會消磨大家對它的善意,2016年的」VR熱潮」和如今如出一轍的「元宇宙騙局」已經證明了這一點。

所以,我只想小心翼翼地客觀呈現這些大牛們的努力:

他們只是從自己熟悉的家園出發,用各自的方式開始了遠征,為體素時代悄悄準備「磚石」——一旦未來降臨,我們手中不至於赤手空拳。

承越告訴我,他們的「3D說明書」正在努力從「小家電」拓展出去,很快,大家就能看到冰箱、洗衣機這樣大家電的3D說明書。他們也在嘗試做出3D世界的「穿鞋帶說明書」,甚至還有美妝產品的說明書——讓大家在虛擬世界就能體會到各種化妝品的使用順序和使用效果。

「這些嘗試未必都能成功,但值得嘗試。」他說。

長孫泰告訴我,他希望不久的將來,每個大小商家,甚至夫妻店都能擁有自己的3D直播間。

商家可以像裝修房子那樣,不斷修改、豐富雲上直播間的樣子,還可以添加新的3D擺件。不僅如此,還能根據直播的主題在各個直播間之間切換,就像一個人在全國每個城市都有別墅,想住哪套住哪套,土豪得不要不要的。

就像這樣,每個商家都可以有好多不同主題的直播間。

友聞告訴我,他們還在奮力改進演算法,讓 Object Drawer 繪製出來的 3D模型平均大小從20m縮小到5m。

未來,商家上架一個商品,就像現在拍一張照片那麼簡單。每一個淘寶上的商品都可以有配套的3D模型。‍

他說。

這樣一來,我們買一個椅子,就同時在虛擬世界得到一個「數字椅子」,買一個水壺,就在虛擬世界得到一個「數字水壺」。

於是,我們裝點自己家的時候,也能裝點自己數字世界的另一個家:

我們在真實的家裡,得到的是真實生活品質的提升,而在虛擬房間裡,得到的是突破物理定律的自由想象——我們可以讓水杯懸在半空,我們可以讓屋頂閃耀璀璨銀河。

我們可以邀請朋友到真實的家,也可以邀請朋友的數字分身到我們的數字莊園。

數字藝術家 Krista Kim 做了一個 Mars House(火星屋)。他把一片豪宅建設在了荒涼的火星上,使之充滿了對於物理定律的挑釁。

所以,我願意把這些淘寶大牛稱為「叛軍」。他們反叛的不是任何人,而是像素時代的種種限制,種種無趣。他們相信,人們的3D數字世界裡不應一片荒蕪,而創造必須始於今天,始於腳下。

也許未來的某一天,我們回望那個像素時代的黃昏,也許會對當年的先行者們致以微笑。

因為他們曾堅信,對未來最大的慷慨,就是把一切獻給現在。

參考文章

參考文章:


《一種降維打擊的視覺化方案》

https://www.bilibili.com/video/BV1Sf4y147J9?share_source=copy_web

Eyes Wide Shut

Eyes Wide Shut

shizhongmax

哦對了,如果喜歡文章,請別吝惜你的「在看」或「分享」。讓有趣的靈魂有機會相遇,會是一件很美好的事情。

Thx with

in Beijing

相關文章

OceanBase:螞蟻爬上舞臺

OceanBase:螞蟻爬上舞臺

淺友們大家好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你特別想聽到誰的故事...