​專訪Zilliz CEO:只要人類還在拓展認知邊界,資料庫創新就永遠不會停止

作為面向AI原生的向量資料庫技術開創者,Zilliz 已經領先全球競爭對手兩年。

——

文|杜晨 圖片來源 | Zilliz

如果你從事 AI 相關行業,對超大規模非結構化資料的處理有興趣,那麼你應該不會對 Zilliz 這家年輕的創業公司,以及它所開創的「向量資料庫」 (vector database) 感到陌生。

在全球經濟整體陷入衰退、科技公司裁員收縮訊息頻傳的最近兩年裡,Zilliz 逆勢創造了融資奇蹟,先後完成B、B+ 兩輪共計 1.03 億美元融資。其中 B+ 輪高達 6000 萬美元,由沙烏地阿美旗下多元化成長基金 P7 Ventures 領投,之前的 B 輪 4300萬美元 則由高瓴創投領投。

Zilliz 的名字在社會上並非家喻戶曉。然而在資料庫領域,這家全球總部位於美國矽谷的創業公司,卻正炙手可熱,被行業人士和投資者認為是「下一家」 Snowflake/Databrick。

由於近十年來基於深度學習的人工智慧技術發展迅速,複雜資料的量級正在以驚人的速度增長。問題在於這些非結構化資料,類型可能包括文件、圖像、視訊、音訊,可能有著成千甚至上萬個維度,讓傳統資料庫捉襟見肘。

向量資料庫技術應運而生:通過機器學習手段將非結構化資料表示為向量(一組數字),再結合其他先進的資料庫(包括傳統資料庫)技術,向量資料庫能夠讓使用者更高效地處理非結構化的複雜資料,從中提取價值,驅動新業務和產品,為老業務帶來使用者體驗提升。

而作為向量資料庫技術的發明公司,Zilliz 的開源向量資料庫項目 Milvus 下載量在上個月剛剛突破了150萬,已經獲得了超過 1000 家企業使用者的支持,並且得到包括eBay、Shopee、宜家、沃爾瑪等頭部電商,以及騰訊、快手、Intuit 等知名科技公司的青睞。

這些巨頭公司正在使用 Zilliz 的產品更好地挖掘和使用超大規模高維度非結構化複雜資料,提升其核心技術、產品和平臺的服務能力和盈利水平。

在 Milvus、Towhee 等優秀開源項目的基礎之上,Zilliz 於近期正式推出了 Zilliz Cloud,一款高效、穩定、安全的向量資料庫全託管雲服務產品,正式開啟了這家 5 歲年輕公司在商業化進程上的全新篇章。

就 Zilliz Cloud 以及向量資料庫市場的發展,矽星人近日對 Zilliz 公司創始人兼 CEO、Linux 基金會旗下 AI & Data 子基金會董事 Charles Xie(星爵)進行了深度採訪。

Zilliz Cloud 是一個全託管、高性能、便於規模化的向量資料庫即服務,可以被理解為雲版本的 Milvus。星爵表示,自從7月底 Zilliz Cloud 發佈以來,已經有很多企業申請註冊參與了首批小範圍測試。而這些企業使用者當中,不乏正為「黑五」購物節摩拳擦掌的頭部電商企業。

據了解,目前 Zilliz Cloud 基於亞馬遜 AWS 服務。星爵預計到今年11月會正式開放公開版本,對所有企業或個人使用者開放使用,並且會在接下來逐步接入Google GCP、微軟 Azure 等公有云平臺,預計在明年上半年提供完整的多雲/跨雲方案。

Zilliz Cloud 架構圖 圖片來源:Zilliz

談到為什麼從一家明星開源軟體公司轉型雲服務,星爵表示,Zilliz 首先仍然是一家開源的基礎軟體公司,但放眼全球同類型公司的經歷,會發現雲服務和開源的商業邏輯吻合度非常高,用開源做社區引流、培養使用者習慣,是一條非常有機的發展路徑。

為了能夠將向量資料庫這一前沿技術進一步普及化,Zilliz 決定開發雲端向量資料庫服務。儘管 Zilliz Cloud 的成本很高,實現盈虧平衡需要更長的時間,星爵仍然對做雲服務這件事十分篤定。

他的信心來自於美國市場客戶較強的付費意識和能力。在美國,雲產品的溢價能力很高。以 MongoDB、Databricks 等知名資料庫公司為例,其服務的溢價水平甚至能夠達到底層公有云硬體價格的5-10倍。

做雲服務的固定成本,比如元資料、安全認證、訊息隊列等,成本確實不低。但是原則上使用者越多,固定成本的攤薄效果越好。「我們已經做好了準備,不可能一上來就 break even(取得收支平衡),可能需要幾年的時間,實現整體盈利可能更晚,」星爵表示,「對於我們來說,找到增長和營利的平衡點更重要。同時,在技術研發和產品迭代上我們會繼續投入更多資源。」

對於 Zilliz 而言,比其他創業公司更早、更多進行戰略級投資,早已不是新鮮事。除了近期推出的雲服務之外,Zilliz 還是整個向量資料庫領域最早斥巨資成立學術研究部門的公司。目前公司的工程團隊佔總員工 70-80%,而學術研究型員工在工程團隊的比例也不小。在過去兩年裡,Zilliz 在向量搜尋方面研究成果斐然,在頂級學術會議 NeurIPS 的 BigANN 全球挑戰賽當中奪冠,研究論文連續兩年被資料庫頂會 SIGMOD 和 VLDB 錄用, 在向量搜尋領域引起了極大關注。

星爵表示,公司在還很稚嫩的時候就投身學術研究,走上這條路實屬「被迫無奈」。

他告訴矽星人,公司內部準備做向量資料庫的時候大約在 2018 下半年,在當時向量資料庫還是一個全新的資料庫品類,和傳統資料庫有巨大的技術差別,帶來了很多全新的挑戰,學術界也沒有任何可以參考借鑑的研究。

「大家能看到的電腦科學領域的創業,很多都是在學術界已有的成果上進一步發展,在工程方面做得更好更快。然而對我們來說,不光是工業界,連學術界都還沒有探索(向量資料庫這一方向)。所以當時,我們感覺就像走在一個荒漠無人區裡,每走一步都是做學術界和工業界還沒人做過的事情。」

正因此,Zilliz 不得不從頭開始打造了一支學術研究隊伍,「跟微軟研究院,或者 AT&T Labs——我們當然沒法比。我們確實是小公司,我們在無人區披荊斬棘走出來的路形成了這樣一條今天所謂的‘賽道’,」星爵對矽星人說道,「我們公開發表論文背後其實還有一點私心。那就是通過做學術研究,去進一步影響學術界和工業界的人,吸引他們加入到向量資料庫這個事業裡面來。光靠一家企業的努力,是很難取得行業突破的,只有更多人加入才有多樣性,整個行業才能更快產生更多技術突破,實現更長遠的發展。」

這也是為什麼他不把同行看做競爭對手,而是把逐漸開始熱鬧起來的向量資料庫賽道,評價為「眾人拾柴火焰高」。

據統計,自從第一款向量資料庫開源項目 Milvus 問世並且獲得使用者好評以來,市場上做向量資料庫相關技術的公司越來越多,只從去年開始算,都出現了七、八家相關公司,遍佈北美、日本、歐洲等國家和區域。

在星爵看來,更多同行的出現,至少在目前階段還是一件很值得開心的事情。因為這種熱潮恰好證明了向量資料庫是下一代人工智慧技術的基礎設施之一,自己的公司創造了一條正確的賽道,「如果你做的市場沒有別人競爭,那很有可能就是你自己的方向錯了。」

非結構化資料是一個多重交叉的領域,本身是資料庫技術,同時也和整個 AI 技術大發展所產生的各種不同工業場景有著極強的關聯。包括網際網路三大核心業務「搜廣推」(搜尋、廣告、推薦),以及安防、藥物發現等市場規模極大,且增長率逐年提升的關鍵行業,對於非結構化資料的使用都在快速提升。

在星爵看來,雖然今天「向量資料庫」的市場只有一年幾億美元,到 2030 年,整個非結構化資料相關的技術市場規模足以達到百億美元。

至少在向量資料庫這一賽道上,Zilliz 至今保持著技術和產品上的先發優勢。由於該公司很早就做了開源項目,現在也推出了雲原生產品,並且能夠確保性能、查詢延遲以及高吞吐的服務,可以水平擴展到處理十億甚至百億級別規模的資料——其他向量資料庫公司暫時還未具備這個能力。更重要的是,Zilliz 已經在上千家企業使用者的幫助下對產品進行了打磨,提高產品的可用性。

「總體上,我們估計比同行領先至少兩到三年,」星爵表示。

星爵(Charles Xie) 圖片來源:Zilliz

從產品下載量來看,Milvus 項目開源三年多,到今年 7 月剛達到 100 萬下載,到上個月就超過了 150萬,預計到年底就會超過 200 萬,並且增速在明年仍將進一步提升;從公司團隊建設的角度,Zilliz 內部的行業統計資料顯示,公司研發和工程師團隊總人數比目前所有同行加起來還要多;而從資本層面,星爵認為 Zilliz 截至目前的總融資水平,比所有同行實際融資規模相加還多一倍左右。

由於技術、經濟、社會的高速發展,產生的資料越來越多,讓資料庫行業整體保持著一種「長青」的狀態。以甲骨文為代表的傳統關係型資料庫行業公司,從上世紀 70 年代生根發芽,直到今天並沒有被取代,仍然保持著快速演進。

究其根本,人類每時每刻都在創造新的資料,而且不僅創造速度變快、數量變多,資料的類型也在變得更加複雜和非結構化。

「比如對於自然界,我們的觀測手段越來越多。再比如現在還有元宇宙這個概念的存在,我們可以隨意創造成百上千個平行世界——資料量更加爆發了,」星爵表示,在資料處理,更快、更大、更強的需求將會是永恆的,從而促使資料庫技術不斷迭代發展。」

「甚至可以說,在未來 50 年以後,傳統的關係型資料庫仍然存在,並且仍在繼續迭代。而對於我們這樣的非結構化的資料平臺,我認為在未來 20 年裡會迎來一個巨大的發展。只要人類還在拓展認知的邊界,資料庫技術的創新就永不停歇。」

注:封面圖來自於Zilliz官網,版權屬於原作者。如果不同意使用,請儘快聯繫我們,我們會立即刪除。

相關文章

不喜歡iPhone的人,救星來了

不喜歡iPhone的人,救星來了

全新Pixel的AI融合技術,再次推進計算攝影的能力邊界。 —— 文|杜晨 編輯|VickyXiao 圖片來源 | Google 美國時間今...

福布斯:2022 區塊鏈 50 強榜單

福布斯:2022 區塊鏈 50 強榜單

區塊鏈已經走了很長一段路了!自 2019 年首次發佈區塊鏈 50 強以來,福布斯年度榜單上的十億美元級公司 (按銷售額或市值計算至少是十億美...