Google 搜尋:幾乎所有的英文搜尋都用上BERT了

機器之心報道

機器之心編輯部

在前段時間舉辦的「Search On」活動中,谷歌宣佈,BERT 現在幾乎為谷歌搜尋引擎上的每一個基於英文的查詢提供支持。而在去年,這一比例僅為 10%。

BERT 是谷歌開源的一款自然語言處理預訓練模型,一經推出就刷新了 11 項 NLP 任務的 SOTA 記錄,登頂 GLUE 基準排行榜。

具體到搜尋引擎來說,BERT 可以幫助搜尋引擎更好地理解 web 頁面上的內容,從而提高搜尋結果的相關性。BERT 模型中創新性的 Transformer 架構是一大亮點。Transformer 處理一個句子中與所有其他單詞相關的單詞,而不是按順序逐個處理。基於此,BERT 模型就可以藉助某個單詞前後的詞來考慮其所處的完整語境,這對於理解查詢語句背後的意圖非常有用。

2019 年 9 月,谷歌宣佈將 BERT 用到搜尋引擎中,但僅有 10% 的英文搜尋結果得到改善;2019 年 12 月,谷歌將 BERT 在搜尋引擎中的使用擴展到 70 多種語言。如今,這家搜尋巨頭終於宣佈:幾乎所有英文搜尋都能用上 BERT 了。

BERT 對於搜尋引擎意味著什麼?

作為自然語言處理領域裡程碑式的進展,BERT 為該領域帶來了以下創新:

  • 利用無標籤文字進行預訓練;

  • 雙向上下文模型;

  • transformer 架構的應用;

  • masked 語言建模;

  • 注意力機制;

  • 文字蘊涵(下一句預測);

  • ……

這些特性使得 BERT 對於搜尋引擎的最佳化非常有幫助,尤其是在消除歧義方面。用上 BERT 之後,對於比較長、會話性比較強的查詢,或者在「for」、「to」等介詞比較重要的語句中,谷歌搜尋引擎將能夠理解查詢語句中詞的上下文。使用者可以用更加自然的方式進行搜尋。

此外,BERT 對於搜尋中的指代消解、一詞多義、同形異義、命名實體確定、本文蘊涵等任務也有很大的幫助。其中,指代消解指的是追蹤一個句子或短語在某個語境或廣泛的會話查詢中指代的是誰或什麼東西;一詞多義指同一個詞有多個義項,幾個義項之間有聯繫,搜尋引擎需要處理模稜兩可的細微差別;同形異義是指形式相同但意義毫不相同的詞;命名實體確定是指從許多命名實體中了解文字與哪些相關;文字蘊含是指下一句預測。這些問題構成了搜尋引擎面臨的常見挑戰。

在過去的一年,谷歌擴展了 BERT 在搜尋引擎中的應用範圍,「搜尋引擎營銷之父」Danny Sullivan 和 G-Squared Interactive 的 SEO 顧問 Glenn Gabe 等人在推特中介紹了谷歌搜尋的最近亮點。

在谷歌搜尋中,有十分之一的搜尋查詢拼寫錯誤。很快,一項新的變革將幫助我們在檢測和處理拼寫錯誤方面取得比過去五年更大的進步。

另一個即將到來的變化是,谷歌搜尋將能夠識別網頁中的單個段落,並將它們處理為與搜尋最相關的段落。我們預計這會改善 7%的 Google 搜尋查詢。

Search On 2020:谷歌可以索引一個網頁的段落,而不僅僅是整個網頁。新演算法可以放大一段回答問題的段落,而忽略頁面的其餘部分。從下個月開始。

使用人工智慧,我們可以更好地檢測視訊的關鍵部分,並幫助人們直接跳到感興趣的內容,而不需要創作者手動標記。到今年年底,10% 的谷歌搜尋將使用這項技術。

此外,谷歌還表示,他們還應用神經網路來理解搜尋相關的子主題,當你搜尋寬泛的內容時,這有助於提供更多樣化的內容。這項服務預計年底推出。

參考連結

參考連結:

https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193

https://searchengineland.com/a-deep-dive-into-bert-how-bert-launched-a-rocket-into-natural-language-understanding-324522

https://blog.google/products/search/search-on/

NeurIPS 2020線上分享:知識圖譜嵌入的自動化

論文:《Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding》。

本篇論文作者受到神經架構搜尋(NAS)的啟發,提出將 Interstellar 作為一種處理關係路徑中資訊的循環架構。此外,該研究中的新型混合搜尋演算法突破了 stand-alone 和 one-shot 搜尋方法的侷限,並且有希望應用於其他具有複雜搜尋空間的領域。

相關文章

不喜歡iPhone的人,救星來了

不喜歡iPhone的人,救星來了

全新Pixel的AI融合技術,再次推進計算攝影的能力邊界。 —— 文|杜晨 編輯|VickyXiao 圖片來源 | Google 美國時間今...

從此,Google 再無 Brain

從此,Google 再無 Brain

世界上最好的 AI Lab,是怎麼走向失敗的? 作者 | Founder Park AI Labs 正在捲土重來,產業界比以往幾十年都更加重...

ChatGPT 的「神功」,是如何煉成的?

ChatGPT 的「神功」,是如何煉成的?

最強對話式 AI,站在巨人的肩膀上。 AIGC 在這幾個月成了一個大熱的話題。 頗有些風水輪流轉的感覺,如同年初大火特火的 web3 一樣,...

ChatGPT 背後的經濟賬

ChatGPT 背後的經濟賬

拿投資和賺錢之前,要先去了解下成本。 ChatGPT 能否取代 Google、百度這樣的傳統搜尋引擎?為什麼中國不能很快做出 ChatGPT...