夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
不知不覺間,接打快遞、銀行等電話時,遇到AI的情況越來越多了。
目前和這些AI溝通,還得講究一個技巧:
要保持你一句我一句的標準節奏,不然難免變成「人工智障」。
比如話說一半卡殼停頓了,AI會以為你說完了,對著半句話給出莫名其妙的回覆。

如果在一句話中間打斷它,也很少有AI能反應得過來。
要是投訴時情緒比較激動,對著話筒一頓輸出,AI可能只回復了第一句,甚至不聽你的,跟你「搶話」。

谷歌在今年的I/O大會上終於提到這個問題,給出的初步解決方案演示還獲得滿場掌聲。

不過,國內其實有人關注這個問題比谷歌更早,那就是擁有複雜場景的京東,早就在實際業務遇到類似的問題。
在京東集團副總裁、IEEE Fellow何曉冬博士看來,這既不屬於語音識別問題,也不屬於語義理解問題,學術研究中往往關注度不高。
只有在落地實踐中,這樣的問題才會暴露出來,進而有機會解決。

2018年,何曉冬離開工作了十餘年的微軟雷蒙德研究院,也是自然語言處理、語言與視覺多模態智慧等領域的領軍人物之一,選擇回國加盟京東。
這其中也是有擁抱場景、離實踐更近方面的考量。
在京東,何曉冬帶領團隊融合聲學、語義、時間等多模態特徵,開發了一系列人機互動場景的「話語權決策「(Turn taking)技術。

△多模態融合的話語權決策(Turning Taking)
如今,這套技術在京東智慧客服系統上每天有百萬到千萬級的諮詢量,就相當於每天要做上千萬次圖靈測試,已經日趨成熟。
而像這樣的問題,何曉冬加入京東以來遇到的還有不少。
對話的本質是推理與決策
在AI發展的上一個階段首先解決了高頻場景,但使用者多了難免出現邊緣案例(edge case)。
隨著京東言犀在全國業務的推廣,識別各地方言的需求開始凸顯,遇到情緒有波動的客戶也更多了。
極端情況下,偶爾會遇到使用者諮詢要買一整瓶安眠藥,言語間帶有輕生傾向。
後來京東做了一個生命通道項目,專門檢測識別這樣少見但重大的情況。檢測到之後一方面可以在言語上安撫客戶、通知物流先不發貨,另一方面聯繫當地的警方或社區人員介入。
從技術上說,除了識別語音,解決這些問題還需要識別使用者意圖、感知使用者情緒以及多輪對話管理。
對此,何曉冬進一步提出「對話的本質是推理與決策」,語言只是其中一種表現形式。
圍棋在過去又叫「手談」,代表這種博弈遊戲就像是用手去交談對話。如果反過來,對話也是一種推理與決策,你需要了解整個棋局,並能夠完美執行。
在京東的智慧客服領域,決策推理能力還體現在如果遇到退換貨、或者其他問題,言犀可以結合對業務場景深度的理解,以及RPA(機器人流程自動化)能力,特別情況下還通過優惠券等多種方式來補償客戶,或遇到複雜問題自動轉接給人工客服處理。
通過解決客戶服務實踐中遇到的種種問題,一套語音語義技術被打磨得更實用,也更以人為本。
情感識別上,有業界首個大規模商用的情感系統,能識別生氣、失望、憤怒、焦慮等7種情緒。
方言識別上,專門開發口音適配模型和演算法,結合語音識別和語義理解聯合建模保證精確性,已能識別粵語、四川話等多地方言。
另外何曉冬認為,在業務實踐中除了能打磨完善單個技術,還能促進多技術的融合。不僅可以提升了技術應用的穩定性,令其有更好的適應性。例如前端的一個指令,背後往往是一套多協同的演算法在「並肩作戰」。
如從商品文案生成的需求出發,語言模型結合領域知識圖譜的AI演算法已實現3000種品類的文案,總計「種草」30億字。

同時,京東上有著5.8億活躍使用者、1000萬個自營SKU和數十萬商家,智慧客服每天處理1000萬次服務,每月產生200萬小時脫敏通話資料。
再加上每年的618、雙11的峰值負載考驗,這一套智慧客服技術在工程上也沉澱出了最佳實踐。
現在技術和工程實踐在京東內部已經跑通,能不能讓它們去解決更多問題?
何曉冬認為,這樣一套端到端的能力可以開放出來給更多第三方使用。
只不過這些技術在內部使用時是高度定製化的,開放出來就需要做解耦出來,在更廣泛的場景做到複用。
在剛剛舉辦的京東雲峰會上,何曉冬發佈了全新升級的人工智慧應用平臺言犀2.0。

這一次,言犀2.0特別強調的關鍵詞是應用平臺,而不是一個開發平臺。
這是因為AI能力要服務於生產製造、倉儲物流、中小賣家等供應鏈上下游離技術更遠的企業時,就不能只是做個跑分高的演算法模型、提供個API接口了事。
而是需要把技術和最佳實踐一起沉澱到產品裡,端到端的交付。
京東零售業務經過19年發展,已經構建起一套完整的供應鏈基礎設施,覆蓋商品的製造、流通、消費和服務的全週期。
進一步,可以把零售行業的價值鏈分為創意、設計、研發、製造、定價、營銷、交易、倉儲、配送、售後等十個環節,這便京東從14年開始提的「十節甘蔗」理論。
當前,在數字化升級、智慧化轉型的大趨勢下,京東又提出「數智供應鏈」。
也就是將京東在供應鏈上沉澱的技術能力解放出來,服務更多實體產業。
這裡面既是京東在技術服務上的差異化競爭優勢,也是不得不做,這是因為——
數智化靠單點突破走到頭了
在AI落地早期階段的特點是「單點應用」,如簡單的問答、臉部辨識等。
下一步則是在某些高頻場景的大規模、全鏈條應用,如零售、金融等場景。
再往後就進入了產業AI的「深水區」,不可避免要遇到低頻、長尾場景,新的困難也隨之出現。
這些場景的資料樣本少、資料分佈不均,對技術來說研發成本更高,同時定製化程度高、難以複製。
要解決這些困難,過去的單點突破則走不通了,那麼,接下來又該怎麼走?
此前從京東內部的經驗可以看出,技術必須要在真實場景下實踐才能暴露出問題,多種技術之間也是在真實場景下實踐才能更好的融合。
在供應鏈視角下,這裡的多技術已不僅指AI內部的各個分支,還要算上雲端運算、大資料、物聯網、5G、區塊鏈等更廣義的技術。
同時,供應鏈所有環節都需要數智化轉型才能最大化效率,帶來上下游之間的協同效應。
由此京東雲提出,產業數字化的下一站便是數智供應鏈。
而京東作為一家既懂技術又懂供應鏈的公司,在這之中要扮演的是用技術連接起產業網際網路和消費網際網路,同時在商品的製造、流通、消費和服務環節推進數智化轉型。
而京東本身就是一個複雜、嚴苛的「場景」,對成本、體驗、效率有著極致的要求。
向這些環節提供智慧服務創造價值的同時,又能通過反饋進一步迭代技術,最終走入正向循環。
總的來說,就是從京東複雜業務場景深度解耦出來的AI能力,歷經多年的考驗和驗證,平臺技術能力可用性強,複用度高,遷移成本低,可以不斷地複製到其他行業。
這樣就解決了AI規模化落地的問題,面對一些低頻、長尾的場景,也更容易遷移。
在今年的京東雲峰會上,基於言犀2.0應用平臺還發布了政務、金融、數字人等技術產品。
政務方面的產品是「京東政務大腦」,以人機互動能力為核心,結合多種技術提供了政務諮詢一網通、疫情防控與排查、智慧養老等一系列解決方案,服務市政民生。

金融方面則是結合對話、決策能力與金融領域專業知識,推出金融全鏈路智慧營服銷一體化解決方案。

最後還有言犀多模態數字人平臺,與市面上的數字人相比,京東數字人更注重產業服務,同時強調AI驅動的多模態互動能力,目前已走進直播帶貨、銀行業務辦理、政務服務等多個場景。

△數字人言小希與京東總部合影
為什麼首先選擇這幾個領域?
何曉冬也給出了他對數智供應鏈應如何推進上的思考。
從AI技術公司,到泛網際網路行業,再到更傳統的行業,離技術越遠則數智化的需求和機會越大,但同時推進數智化的難度也更大。
這其中,金融、政務這些行業數字化基礎設施已初步建設完善,與大眾關係又緊密。
先從這些領域入手去推進智慧化,可以迅速打開局面,再一步步深入滲透進能源、製造業等更傳統的行業。
選擇做數字人平臺也是類似的思路,數字人當下產業需求非常龐大,又是人機互動技術最佳的表現載體,可以一邊創造價值,一邊進一步檢驗和完善技術。