谷歌AI可以替你打電話(huà)了,“這下真分不清電話(huà)對面是人是狗了”
小場(chǎng)景有限話(huà)題模擬對話(huà)不是什么新鮮事,針對demo優(yōu)化到流暢也不難,但和真人對話(huà)能力是兩碼事。
鎂客注:
Google Duplex的應變能力讓人驚艷,甚至有人說(shuō),以后,我們將分不清電話(huà)對面是人還是狗。
但換個(gè)場(chǎng)景試試?
可以看到,谷歌此次展示的是在特定場(chǎng)景下,其語(yǔ)音助手“真人式”的表演。作為“宣傳者”,Google Duplex是成功的。然而,“表演”都是讓人驚艷的,實(shí)際落地、應用的過(guò)程中問(wèn)題也是很多的,包括谷歌。
本文基于Google Duplex展現的功能,從歷年來(lái)人工智能技術(shù)發(fā)展進(jìn)程及落地的脫節或者進(jìn)步情況出發(fā),探討AI技術(shù)未來(lái)的普及之路。
本文轉自尋找中國創(chuàng )客;作者:蔡浩爽,編輯:魏佳;作者公眾號:尋找中國創(chuàng )客(ID:xjbmaker)
正文:
人工智能距離“成精”又近一步。
北京時(shí)間5月9日凌晨,2018谷歌 I/O大會(huì )上,谷歌助手Google Assistant為社交恐懼癥患者帶來(lái)福音:
有了這個(gè)人工智能助理,你再也不用自己打電話(huà)去點(diǎn)外賣(mài)、預約理發(fā)店、餐廳、美容院、家政服務(wù)……
只要告訴Google Assistant你的需求,它就會(huì )像真人助理一樣,幫你在后臺打電話(huà)搞定這些事,并且及時(shí)反饋給你預約結果。
這個(gè)名為Google Duplex的技術(shù)驚艷了整個(gè)舊金山山景城。
谷歌首席執行官皮查伊(Sundar Pichai)在谷歌園區的圓頂露天劇場(chǎng)里展示谷歌助手打電話(huà)的兩個(gè)場(chǎng)景時(shí),Google Assistant對話(huà)的流暢及仿真程度引起臺下諸多科技媒體一陣陣驚呼:你根本無(wú)法辨別電話(huà)對面的是真人還是機器。
搞混時(shí)間和人數都沒(méi)能干擾它
“我能幫你做點(diǎn)什么?”理發(fā)店客服在電話(huà)里問(wèn)。
“我想幫一位客戶(hù)預約女士理發(fā),嗯…我想預約5月3日的時(shí)間。”電話(huà)這頭,谷歌語(yǔ)音助手流暢地說(shuō)明自己打電話(huà)的意圖,甚至還在對話(huà)中模仿人類(lèi)口語(yǔ),加上了“emmmm” 這種表示思考的停頓。其語(yǔ)調的抑揚頓挫,完全不同于常見(jiàn)語(yǔ)音助手的機械音。
當理發(fā)店客服表示“稍等,我查詢(xún)一下”后,Google Assistant停頓了一秒——它可能在理解這句話(huà)的意圖——隨后說(shuō)出了“嗯哼”,俏皮的語(yǔ)氣引得臺下哄堂大笑。
值得注意的是,在理發(fā)店客服表示Google Assistant 預約的12點(diǎn)已經(jīng)約滿(mǎn),建議預約下午1點(diǎn)15分的時(shí)間時(shí),Google Assistant并未直接接受,而是詢(xún)問(wèn)上午10點(diǎn)到12點(diǎn)是否有可預約的時(shí)間,隨后挑選合適時(shí)間并順利完成預約。
皮查伊表示,這是Google Assistant 打電話(huà)給理發(fā)店完成預約的真實(shí)場(chǎng)景。
在整個(gè)預約過(guò)程中,Google Assistant發(fā)音自然,語(yǔ)調、語(yǔ)速并不讓人感到怪異,就連停頓、“嗯…”等表示思考的小細節都考慮到了。
在皮查伊展示的第二個(gè)場(chǎng)景中,Google Assistant的應變能力更是讓人驚艷。
第二個(gè)場(chǎng)景是預定餐位,從口音判斷,餐廳接線(xiàn)員不是native speaker,對英文的理解并不準確。接線(xiàn)員數次搞混 Google Assistant表達的時(shí)間、人數等信息,比如把“預定本月7號”聽(tīng)成“有7個(gè)人用餐”。Google Assistant一次次糾正信息,并且在干擾下牢記核心任務(wù)。
讓皮查伊更感到驕傲的是,當餐廳接線(xiàn)員表示,四人在工作日就餐不需預約時(shí),Google Assistant并沒(méi)有選擇結束對話(huà),而是自發(fā)追問(wèn)了一句:“通常等位要多久?”
“我們遇到過(guò)很多這種發(fā)展方向跟預想不同的對話(huà),但神奇的是,Google Assistant可以理解上下文情景和對話(huà)的細微差別。在這段對話(huà)中,它知道要問(wèn)等位時(shí)間,非常得體地完成了對話(huà)。”皮查伊說(shuō)。
“在美國,60%小商戶(hù)都沒(méi)有在線(xiàn)預約系統。”Google Assistant瞄準這一痛點(diǎn),在后臺幫用戶(hù)完成預約等服務(wù),節省用戶(hù)時(shí)間。
兩年前的谷歌 I/O 開(kāi)發(fā)者大會(huì )上,Google Assistant 第一次亮相。兩年后的今天,據負責谷歌助理和搜索產(chǎn)品設計的副總裁尼克·??怂梗∟ick Fox)表示,Google Assistant 已經(jīng)是谷歌一項非常重要的業(yè)務(wù)。
圖 | 負責谷歌助理和搜索產(chǎn)品設計的副總裁尼克·??怂梗∟ick Fox)
皮查伊同樣表示,這項名為Google Duplex的技術(shù),谷歌內部已研究多年。Duplex翻譯過(guò)來(lái),可以叫“語(yǔ)音雙攻技術(shù)”。使用這一技術(shù),用戶(hù)只要提出需求,Google Assistant就可以直接在后臺完成,然后把結果通知給用戶(hù)。它將谷歌這些年來(lái)各種投資研發(fā)項目融會(huì )貫通,比如自然語(yǔ)言理解、深度學(xué)習、文字和語(yǔ)音轉換等。
而Google Duplex只是Google Assistant升級的一個(gè)方面。Google Assistant還對交互聲音進(jìn)行了全新升級優(yōu)化,增加了六個(gè)新的聲音;支持持續多輪對話(huà),讓對話(huà)更加自然;支持多重任務(wù)處理,把一句話(huà)中的多個(gè)任務(wù)拆解并完成,比如“把臥室和客廳的空調打開(kāi)。
目前,谷歌語(yǔ)音助手已經(jīng)支持全球80個(gè)國家和地區,約30種語(yǔ)言,但遺憾的是,全球使用人口數量最多的漢語(yǔ)卻不在其中。
真的等于擁有真人助理?
Google Assistant新功能一經(jīng)展示,有網(wǎng)友在社交媒體留言稱(chēng):“這下真分不清電話(huà)對面是人是狗了。”
今年的開(kāi)發(fā)者大會(huì )上,Google Assistant力壓Android P,成為皮查伊展示的重頭戲。但皮查伊在開(kāi)發(fā)者大會(huì )上展示的demo距離落地還有多遠?Google Assistant是否真的如此驚艷?
有觀(guān)點(diǎn)認為,Google Assistant能做到打電話(huà)訂餐,其中最難突破的是要“理解一個(gè)真人的對話(huà)”,即理解自然場(chǎng)景中的對話(huà)。因為在現實(shí)中,餐廳的接線(xiàn)員并不知道電話(huà)那一頭是一個(gè)機器人,而是把對方當作真人,兩個(gè)真人之間即便是簡(jiǎn)單的交流,對機器來(lái)說(shuō)也會(huì )是復雜的,語(yǔ)速、口音、省略詞甚至是嘈雜的背景音,可能都會(huì )影響機器的識別。
不過(guò),從更多場(chǎng)景的角度上來(lái)講,Google Assistant可能還很局限。至少現在,人們不用擔心一個(gè)機器人打來(lái)的詐騙電話(huà)。
人工智能用戶(hù)體驗公司Rokid創(chuàng )始人祝銘明坦言:“小場(chǎng)景有限話(huà)題模擬對話(huà)不是什么新鮮事,針對demo優(yōu)化到流暢也不難,和吹捧的什么真人對話(huà)能力是兩碼事。”
有資深科技評論員認為,谷歌展示的如此智能的語(yǔ)音助手距離落地遙遙無(wú)期,但來(lái)自語(yǔ)音交互獨角獸思必馳的資深產(chǎn)品架構專(zhuān)家戴中原認為,在特定應用場(chǎng)景,經(jīng)過(guò)大量訓練,實(shí)現Google Assistant在demo中展示出的效果并不遙遠,“今年年底國內一些廠(chǎng)家的產(chǎn)品上就可能實(shí)現。”
“Google今天所展示的功能,涉及語(yǔ)音識別、自然語(yǔ)言理解和會(huì )話(huà)管理的三大技術(shù)領(lǐng)域,我們內部也已經(jīng)在研究。Google厲害之處可能在于,別人也能做到的事,它可以比別人做得更快。”
以TTS(Text To Speech,從文本到語(yǔ)音)技術(shù)為例,過(guò)去采用的是聲音素材拼接的方法,導致拼接出來(lái)的句子語(yǔ)調平平,沒(méi)有抑揚頓挫和語(yǔ)音語(yǔ)調,自然也感受不到像真人對話(huà)一樣的情感情緒。而谷歌旗下的DeepMind訓練出了一個(gè)深度神經(jīng)網(wǎng)絡(luò )模型WaveNet,采用自然生成的方法,以少量的語(yǔ)料輔以強大的計算,生成原始語(yǔ)音,不僅更貼近真人,而且制作時(shí)長(cháng)也從幾個(gè)月降低到幾百小時(shí)。
“這一方面的技術(shù)我們也早已開(kāi)始研究,今年下半年預計會(huì )推出新場(chǎng)景下的應用。” 戴中原表示。
那么,這一技術(shù)一旦搭載到智能手機等硬件中,是不是等同于每人都擁有了個(gè)人真人助理?事情恐怕沒(méi)那么簡(jiǎn)單。
戴中原表示,從自然語(yǔ)言訓練的方法角度看,通過(guò)充分的數據梳理,借助機器學(xué)習在某個(gè)單一領(lǐng)域窮舉各種情況,繼而達到Google在今天所展示的效果尚有可能。但目前沒(méi)有公司可以做到全方位理解各種場(chǎng)景。也就是說(shuō),Google Assistant所擅長(cháng)的也是針對特定場(chǎng)景的,例如預訂餐位和理發(fā)。
“谷歌今天所展示的技術(shù)并未驚艷到我,但它作為宣傳者,在教育用戶(hù)方面的努力是很厲害的。”谷歌推出阿爾法狗,第一次將人工智能普及到普羅大眾。在戴中原看來(lái),此次谷歌開(kāi)發(fā)者大會(huì ),最大的意義依然在于教育用戶(hù)。
識別機器打call教你一招
多年前,技術(shù)公司們就意識到智能語(yǔ)音互動(dòng)會(huì )成為下一代技術(shù)產(chǎn)品最核心的用戶(hù)入口。
作為人類(lèi)與機器交互的方式之一,語(yǔ)音助手在物聯(lián)網(wǎng)領(lǐng)域的入口性地位使得其成為兵家必爭之地,亞馬遜、蘋(píng)果、谷歌、微軟以及國內BAT相繼推出智能音箱等搭載語(yǔ)音助手的硬件產(chǎn)品。
2014年11月,亞馬遜Echo面市,成了第一個(gè)智能音箱的爆款。一組對比大概可以直觀(guān)表現出Echo的成功:Echo面市后,兩周內銷(xiāo)量即達100萬(wàn)。而iPhone用了70天才達到同樣的訂單數。據調查機構此前預計,2017年Echo銷(xiāo)量將突破1100萬(wàn)臺。
圖 | 亞馬遜Echo
察覺(jué)到市場(chǎng)變化,谷歌、蘋(píng)果和微軟也于兩年后在智能音箱領(lǐng)域逐步有所行動(dòng)。但相較于早早布局的亞馬遜,谷歌在語(yǔ)音助手方面失了先機。根據市場(chǎng)咨詢(xún)公司eMarketer發(fā)布的報告,美國智能音箱用戶(hù)約70.6%是亞馬遜用戶(hù),谷歌只占了23.8%。
Google Duplex是否會(huì )幫助Google Assistant翻盤(pán),一舉成為中國市場(chǎng)外應用最廣的語(yǔ)音交互產(chǎn)品?
可見(jiàn)的是,谷歌和亞馬遜都在加強自己的音箱產(chǎn)品線(xiàn)。
2017年,谷歌又推出價(jià)位分別為40美元和400美元的智能音箱產(chǎn)品Home Mini和Home Max,而亞馬遜也已經(jīng)推出了價(jià)格從40美元到230美元不等的10款音箱產(chǎn)品。
物聯(lián)網(wǎng)時(shí)代,智能音箱作為較為成熟的交互手段,在現階段承載起人工智能家居、車(chē)載場(chǎng)景入口的厚望。從汽車(chē)中控、IoT 再到企業(yè)智能客服,語(yǔ)音助手市場(chǎng)上彌漫著(zhù)搶占山頭的硝煙味兒。
Google Assistant 的演示已經(jīng)在C端吊足了消費者的胃口,人們在期待Google Assistant 帶來(lái)更多可能性的同時(shí),也擔憂(yōu)著(zhù)由此帶來(lái)的電話(huà)詐騙等風(fēng)險的提高。
戴中原表示,這是技術(shù)發(fā)展造成的矛與盾的問(wèn)題,但這一困擾也不是沒(méi)有辦法解決。“比如你接到推銷(xiāo)保險的人工智能電話(huà),你可以跳出保險圈子,跟他聊其他方面的事兒。因為目前的人工智能只能比較好地解決一個(gè)場(chǎng)景的對話(huà)。”
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
