GoogleRecorder 實現說話人自動標註,功能性與iOS語音備忘錄再度拉大

在今年的 Made By Google 大會上,Google公佈了 Recorder 應用的自動說話人標註功能。該功能將實時地為語音識別的文字加上匿名的說話人標籤(例如 「說話人 1」 或「說話人 2」)。這項功能將極大地提升錄音文字的可讀性與實用性。

Google於 2019 年為其 Pixel 手機推出了安卓系統下的錄音軟體 Recorder,對標 iOS 下的語音備忘錄,並支持音訊檔案的錄製、管理和編輯等。在此之後,Google陸續為 Recorder 加入了大量基於機器學習的功能,包括語音識別,音訊事件檢測,自動標題生成,以及智慧瀏覽等。

不過當錄音檔案較長幷包含多個說話人的時候,一部分 Recorder 的使用者在使用過程中會感到不便。因為僅憑語音識別得到的文字,並不能判斷每句話分別是誰說的。在今年的 Made By Google 大會上,Google公佈了 Recorder 應用的自動說話人標註功能。該功能將實時地為語音識別的文字加上匿名的說話人標籤(例如 「說話人 1」 或「說話人 2」)。這項功能將極大地提升錄音文字的可讀性與實用性。而這項功能背後的技術,被稱為聲紋分割聚類(speaker diarization)。Google在 2022 年的 ICASSP 會議上,首次介紹了其名為 Turn-to-Diarize 的聲紋分割聚類系統。

左圖:關閉了說話人標註的錄音文字。右圖:開啟了說話人標註的錄音文字。

系統架構

Google的 Turn-to-Diarize 系統包含了多個高度最佳化的模型和演算法,實現了在移動設備上,以極少的計算資源完成對長達數小時的音訊進行實時聲紋分割聚類處理。該系統主要包含三個組成部分:用以檢測說話人身份轉換的說話人轉換檢測模型,用以提取每個說話人聲音特徵的聲紋編碼器模型,以及一個能夠高效完成說話人標註的多階段聚類演算法。所有組成部分都完全運行在使用者的設備上,不依賴於任何伺服器連接。

Turn-to-Diarize 系統的架構圖。

說話人轉換檢測

該系統的第一個組成部分是一個基於 Transformer Transducer(T-T)的說話人轉換檢測模型。該模型能夠將聲學特徵序列轉換為包含了特殊字符 < st > 的文字序列。特殊字符 < st > 表示一個說話人轉換的事件。Google之前發表的論文曾經用諸如 < doctor > 或 < patient > 的特殊字符來表示具體說話人的身份。而在最新的系統中,由於 < st > 字符不侷限於特定的身份,因此其應用也更加廣泛。

對於大多數的應用,聲紋分割聚類系統的輸出一般不會直接呈現給使用者,而是與語音識別模型的輸出進行結合。由於語音識別模型在訓練過程中已經針對詞錯率進行了最佳化,因此說話人轉換檢測模型對於詞錯率較為寬容,但更加註重特殊字符 < st > 的準確率。在此基礎上,Google提出了一種新的基於字符的損失函數,實現了只需較小的模型,就能準確地檢測出說話人轉換事件 < st>。

提取聲紋特徵

當音訊信號被按照說話人轉換事件進行分割之後,系統通過聲紋編碼器模型對每一個說話人片段提取包含聲紋資訊的嵌入碼,即 d-vector。Google在之前發表的論文中,一般都是從固定長度的音訊中提取聲紋嵌入碼。與之相比,這次的新系統有多項改進。首先,新系統避免了從包含多個說話人資訊的片段中提取聲紋嵌入碼,從而提升了嵌入碼的整體質量。其次,每一個聲紋嵌入碼對應的語音片段,其時長都比較長,因此包含了對應說話人較多的聲紋資訊。最後,該方法得到的最終聲紋嵌入碼序列,其長度較短,使得後續的聚類演算法計算代價較低。

多階段聚類

聲紋分割聚類的最後一步,便是對前面幾步得到的聲紋嵌入碼序列進行聚類。由於使用者使用 Recorder 應用生成的錄音可能只有幾秒鐘,也可能長達 18 小時,所以聚類演算法面臨的關鍵挑戰便是能夠處理各種長度的聲紋嵌入碼序列。

為此,Google的多階段聚類策略巧妙地結合了幾種不同的聚類演算法各自的優勢。對於較短的序列,該策略採用聚合式分層聚類(AHC)。對於中等長度的序列,該方法採用譜聚類,並利用特徵值的最大間隔法,來準確地估算說話人的數量。對於較長的序列,該方法先用聚合式分層聚類來對序列進行預處理,然後再調用譜聚類,從而降低了聚類這一步驟的計算代價。而在整個流式處理的過程當中,通過對之前的聚類結果進行動態快取並重複利用,每一次聚類演算法的調用,其時間複雜度以及空間複雜度,上限都可以被設置為一個常數。

多階段聚類策略是針對設備端應用的一項關鍵最佳化。因為在設備端,CPU、記憶體、電池等資源通常都較為稀缺。該策略即使在處理過長達數小時的音訊之後,依然能夠維持在一個低能耗的狀態下運行。而該策略的常數複雜度上限,通常可以根據具體的設備型號進行調整,實現準確率和性能之間的平衡。

多階段聚類策略的示意圖

多階段聚類策略的示意圖。

實時校正以及使用者標註

因為 Turn-to-Diarize 是一個實時的流式處理系統,所以當模型處理完更多的音訊之後,其預測得到的說話人標籤也會變得更加準確。為此,Recorder 應用會在使用者錄音的過程當中,持續地對之前預測的說話人標籤進行校正,保證使用者在當前螢幕上看到的說話人標籤始終是更為準確的標籤。

與此同時,Recorder 應用的使用者界面還允許使用者對每一段錄音中的說話人標籤進行重新命名,例如將 「說話人 2」 重新命名為「汽車經銷商」,從而方便使用者閱讀和記憶。

Recorder 允許使用者對說話人標籤進行重新命名,從而提升可讀性。

未來工作

Google在最新的數款 Pixel 手機上推出了自研晶片 Google Tensor。而當前的聲紋分割聚類系統主要便運行在 Google Tensor 的 CPU 模組上。未來Google計劃將聲紋分割聚類系統運行到 Google Tensor 的 TPU 模組上,從而進一步降低能耗。此外,Google還希望藉助多語言的聲紋編碼器以及語音識別模型,將這一功能擴展到除英語之外的其他語言上。

原文連結:

https://ai.googleblog.com/2022/12/who-said-what-recorders-on-device.html

相關文章

不喜歡iPhone的人,救星來了

不喜歡iPhone的人,救星來了

全新Pixel的AI融合技術,再次推進計算攝影的能力邊界。 —— 文|杜晨 編輯|VickyXiao 圖片來源 | Google 美國時間今...

從此,Google 再無 Brain

從此,Google 再無 Brain

世界上最好的 AI Lab,是怎麼走向失敗的? 作者 | Founder Park AI Labs 正在捲土重來,產業界比以往幾十年都更加重...