祖克柏曝光Meta的小目標:AI自動生成元宇宙,實時翻譯所有語言

編輯:澤南、蛋醬

它們都將成為元宇宙時代的殺手級 APP?

Meta 正在致力於通過語音生成元宇宙世界的人工智慧研究,還有很多神奇的技術。執行長馬克 · 祖克柏本週三表示,該公司正在研究改善人們與語音助手交流順暢程度,以及在不同語言之間進行翻譯的方式。

最近一段時間,祖克柏正帶領臉書 all in 元宇宙,並預測在未來人們可以在虛擬世界中工作、社交和娛樂,這一環境將最終代替網際網路。

至於元宇宙、虛擬現實是如何能夠讓人沉浸其中的,「解鎖這些進步的關鍵是人工智慧,」祖克柏說道。

讓做飯看起來和模擬人生裡一樣簡單

讓做飯看起來和《模擬人生》裡一樣簡單。


Meta 正在研究一類新的生成 AI 模型,該模型將允許人們描述一個世界,人工智慧自動生成它的各個方面。在昨天的演示中,祖克柏展示了一個名為 Builder Bot 的 AI 概念,人們在元宇宙的島嶼上以 3D 化身的形式出現,併發出語音命令創建海灘,系統可以遵從人們的命令隨時更改天氣,添加樹木甚至野餐毯。

海灘、島嶼、椰子樹,想要什麼場景,跟 AI 說一聲就有了

「隨著我們進一步推動這項技術,你將可以創造出夢想中的世界,用你的聲音與他人探索和分享經驗。」不過祖克柏沒有為這些計劃設定時間表,也沒有提供有關 Builder Bot 工作原理的更多細節。

另一部分是語音識別技術,Meta 表示正在研究人工智慧,讓人們能夠與語音助手進行更自然的對話,這是讓人們在元宇宙中與人工智慧順暢交流邁出的一步。祖克柏表示,該公司的 CAIRaoke 項目是「用於構建設備助手的完全端到端的神經模型」。

在祖克柏的展示中,CAIRaoke 在一個「非常實用」的家庭場景中起到了作用:人在煮燉菜時,語音助手會發出提示,警告說鹽已經加到鍋裡了。AI 助理還注意到鹽放少了,於是提示要放更多。

在 Meta 隨後發佈的部落格中,研究者們對 CAIRaoke 背後的技術進行了解讀。人工智慧語音助手的傳統方法需要四組輸入和輸出——管道的每層(NLU、DST、DP 和 NLG)各一組。它還需要為每一層的輸入和輸出定義標準。例如,對於 NLU,傳統的會話 AI 系統需要定義的本體(例如,各種意圖和實體)。

但 Meta 提出的新模型根本沒有規定會話流,使用時我們只需要一組訓練資料。CAIRaoke 減少了添加新域所需的工作。在規範方法中,擴展到新領域需要順序構建和更改每個模組,然後才能可靠地訓練下一個模組。換句話說,如果 NLU 和 DST 每天都在變化,就無法有效地訓練 DP。一個元件的更改可能會破壞其他元件的效果,從而需要對所有後續模組的重新訓練。這種相互依賴減慢了後續模組的進度。

Meta 的端到端技術消除了對上游模組的依賴,提高了開發和訓練速度,使我們能夠以更少的資料微調其他模型。

Meta 表示,它已在旗下的視訊通話設備 Portal 中使用該模型,並期待將其集成到具有增強現實 (AR) 和虛擬現實 (VR) 的硬體設備中。在接受路透社採訪時,Meta 的 AI 副總裁 Jérôme Pesenti 表示,該公司正在嚴格限制其基於 CAIRaoke 人工智慧新助手的響應,直到它能夠確保系統不會產生冒犯性的語言。

「這些語言模型性能強大…… 我們正在努力研究如何控制,」Pesenti 說道。

祖克柏還宣佈,Meta 正在開發一款通用語音翻譯器,旨在提供橫跨所有語言的即時語音到語音翻譯。該公司此前已為其人工智慧系統設定了翻譯所有書面語言的目標。

「能夠用任何語言與任何人交流,這是人們夢寐以求的超能力,而人工智慧將在我們有生之年實現這一目標。」祖克柏表示。

儘管當前的翻譯工具可以很好地適用於英語、普通話、西班牙語等常用語言,但世界上大約 20% 的人口不會說這些系統所涵蓋的語言。通常,這些服務不足的語言沒有易於訪問的書面文字語料庫,這些語料庫也是訓練 AI 系統必需的,甚至一些語言根本沒有標準化的書寫系統。

Meta 表示,它希望通過在兩個特定領域部署新的機器學習技術來克服這些挑戰。第一個稱為 No Language Left Behind,將專注於構建可以使用更少的訓練示例學習翻譯語言的 AI 模型。第二個是通用語音翻譯器,旨在構建直接將語音從一種語言實時翻譯成另一種語言的系統,而無需書面元件作為中介(書面中介是許多翻譯應用程序的常用技術)。

具體來說,Meta 正在構建一個新的高級 AI 模型,其可以從更少的示例中進行語言學習,Meta 將使用它來實現數百種語言的專家級翻譯,從阿斯圖里亞斯語、盧甘達語到烏爾都語。Meta 還在構建新型通用實時語音翻譯器,以支持沒有標準書寫系統的語言及口頭語。

基於自動資料集創建工具 LASER,Meta 研究者構建了 ccMatrix 和 ccAligned 等系統,它們能夠在網際網路上查找不同語言的平行文字。由於低資源語言的可用資料很少,Meta 創建了一種新的訓練方法,使 LASER 能夠專注於特定的語言子組——例如班圖語——並從更小的資料集中學習。

這些努力使得 LASER 能夠跨語言大規模有效地運行,Meta 最近還將 LASER 擴展到了語音處理領域。

為了提升機器翻譯模型的性能,Meta 投入大量資源創建了大容量且可以高效訓練的模型(稀疏門控的專家混合模型)。通過增加模型體量和自動路徑學習功能,不同的符號可以使用不同的專家能力。為了將基於文字的機器翻譯模型擴展到上百種語言,Meta 構建了第一個不以英語為核心的多語言翻譯系統,其效果甚至優於最好的雙語翻譯模型。

在宣佈這一訊息的部落格文章中,Meta 研究這還沒有提供完成這些項目的時間表,也沒有提供實現目標的主要路線圖。相反,該公司只是強調了通用語言翻譯的可能性。

Meta 還設想這種技術將極大造福於其遍佈全球的產品,進一步擴大其影響範圍並轉變為數百萬人必不可少的通訊工具。正如部落格文章寫到的那樣,通用翻譯軟體將成為未來可穿戴設備的殺手級應用,如 Meta 正在構建的 AR 眼鏡,還將打破「沉浸式」VR 和 AR 現實空間(Meta 也在構建)的界限。

換句話說,雖然開發通用翻譯工具會帶來人道主義利益,但對於 Meta 這樣的公司來說,它也具有良好的商業意義。

這家社交媒體為主業的公司在最近的財報公佈之後市值縮水了近三分之一,出於對未來的思考,臉書已將努力的主要方向轉變為建立虛擬世界,併為此直接更改了公司名稱。本月 Meta 報告稱,該公司的增強和虛擬現實業務 Reality Labs 2021 年淨虧損 102 億美元。

Meta 的 AI 負責人 Pesenti 表示,這家公司正在探索 AI 如何調節元宇宙中的內容和行為。

「在我們的主要平臺上,使用了大量的 AI 來調節其中的內容。元宇宙有些與眾不同,因為它更加實時,」Pesenti 說。他表示這是一項「發展中」的工作,Meta 也在研究元宇宙的一些策略問題。

在 AI event 上,祖克柏表示 Meta 正在探索 AI 如何通過自監督學習來解釋和預測元宇宙中可能發生的互動類型。因此 AI 可以通過自監督學習獲得原始資料,而不是用大量標記的資料進行訓練。

同時,Meta 也在研究以個人為中心的資料,包括從第一人稱看世界。祖克柏表示 Meta 已經與 13 所大學和實驗室組成了一個全球性的聯盟,共同推進 Ego4D 資料集的研究,這是目前最大的以個人為中心的資料集。

參考內容:

https://www.reuters.com/technology/metaverse-event-metas-zuckerberg-unveils-work-improve-how-humans-chat-ai-2022-02-23/

https://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-time/

https://www.theverge.com/2022/2/23/22947368/meta-facebook-ai-universal-speech-translation-project

相關文章