極限元溫正棋:從前端信號處理到語(yǔ)音識別、對話(huà)、聲紋情緒與合成,要打造智能交互閉環(huán)
在溫正棋看來(lái),鑒于開(kāi)源等原因,智能語(yǔ)音的核心技術(shù)已經(jīng)不存在太大差別,而他們相比之下的優(yōu)勢更多集中在業(yè)務(wù)服務(wù)能力及閉環(huán)技術(shù)的應用層面。
前段時(shí)間,亞馬遜智能音箱Echo時(shí)而抽風(fēng)的怪笑聲令消費者“震驚”,雖然到底是什么原因造成的,我們目前尚不清楚。不過(guò),我們可以確定的是,語(yǔ)音交互已經(jīng)成為了人們智能生活中不可或缺的一個(gè)因素。
選擇極限元,他的初衷就是把研究轉化為產(chǎn)品應用到市場(chǎng)
“我自己是中科院自動(dòng)化所模式識別國家重點(diǎn)實(shí)驗室的副研究員,就想把研究做成產(chǎn)品運用到市場(chǎng)上,這是我當初加入極限元的初衷。”極限元CEO溫正棋表示??梢哉f(shuō),從成立之初到現在,溫正棋見(jiàn)證了極限元的成長(cháng)與蛻變。
在最初,極限元選擇以“單項技術(shù)應用”來(lái)切入市場(chǎng)。彼時(shí),基于音頻比對和關(guān)鍵詞檢索兩個(gè)關(guān)鍵技術(shù)的結合,再加之與其他公司的合作,極限元開(kāi)拓了多個(gè)業(yè)務(wù),包括音頻防恐防暴、反電信詐騙等等。
此外,溫正棋表示,在語(yǔ)音合成、語(yǔ)音識別等方面,極限元最初也與多家大型公司達成了合作,如“騰訊、搜狗、奇虎360等”。
目前,在自身公司主體之外,極限元也與中科院自動(dòng)化所聯(lián)合掛牌成立了“中國科學(xué)院自動(dòng)化研究所-極限元(北京)智能科技股份有限公司智能交互聯(lián)合實(shí)驗室”。
打造智能語(yǔ)音技術(shù)閉環(huán),為市場(chǎng)提供整套的智能交互解決方案
從2017年開(kāi)始,極限元對自己的定位進(jìn)行了調整,溫正棋稱(chēng),當前他們致力于打造一個(gè)從前端信號處理——語(yǔ)音識別——人機對話(huà) —聲紋識別—情緒識別——語(yǔ)音合成的語(yǔ)智能交互技術(shù)“閉環(huán)”。
而基于這一全新定位,在業(yè)務(wù)的開(kāi)展方面,溫正棋指出了三個(gè)全新的角度,分別是機器人和智能客服、語(yǔ)音轉寫(xiě)。
具體來(lái)講,比如機器人,遵循自身定位的極限元提供的也是閉環(huán)式解決方案。“從前端信號到語(yǔ)音識別、語(yǔ)音合成、再到對話(huà),‘對話(huà)’方面會(huì )接入第三方內容。”溫正棋稱(chēng)。也就是說(shuō),在具體的案例中,機器人廠(chǎng)商只需提供一個(gè)配備了系統的機器人,而極限元則是將自身智能語(yǔ)音軟件嵌入其中,以便廠(chǎng)商基于軟件來(lái)搭建智能機器人的語(yǔ)音交互能力。
又比如智能客服,也被細分為兩個(gè)小方向,分別外呼機器人,因為手握主動(dòng)權,極限元在設計規劃的時(shí)候將針對性的設計對話(huà)邏輯,以避免語(yǔ)音識別不準確、對話(huà)邏輯混亂等問(wèn)題。另一個(gè)則是語(yǔ)音質(zhì)檢,將之替代客服行業(yè)中的人工質(zhì)檢,在全面覆蓋的前提下提升質(zhì)檢效率。
與眾多從事智能語(yǔ)音技術(shù)的公司一樣,極限元當前的業(yè)務(wù)也是以B端市場(chǎng)為主。同時(shí),他們也面向C端用戶(hù)提供了一些產(chǎn)品/服務(wù),譬如語(yǔ)音轉寫(xiě)等。
在智能化趨勢之下,作為人機交互的主要途徑之一,語(yǔ)音交互市場(chǎng)愈發(fā)龐大。與此同時(shí),我們看見(jiàn)的業(yè)內多個(gè)公司的此起彼伏。“鑒于技術(shù)、算法開(kāi)源等因素,業(yè)內各家公司在核心技術(shù)上并沒(méi)有太大的差別,最主要的關(guān)鍵是你在特定領(lǐng)域的數據積累。”談及極限元的市場(chǎng)競爭力,溫正棋這樣表示。
在其看來(lái),作為一個(gè)創(chuàng )業(yè)公司,相比于技術(shù),他們比之其他公司的優(yōu)勢更多的集中在業(yè)務(wù)上。“對于一個(gè)業(yè)務(wù)來(lái)說(shuō),友商們可能沒(méi)有分配單人來(lái)專(zhuān)門(mén)跟進(jìn)業(yè)務(wù)合作、提供服務(wù)等等。作為初創(chuàng )公司,我們在這一服務(wù)方面肯定做的比他們好。”
智能語(yǔ)音技術(shù)的行業(yè)門(mén)檻不低,語(yǔ)音交互不順暢的解決方案在于“特定”
今年來(lái),像智能客服、智能服務(wù)機器人以及智能家居單品等產(chǎn)品與人類(lèi)之間經(jīng)常會(huì )發(fā)生智能交互的過(guò)程。在這其中,我們應該也注意到,有時(shí)候基于語(yǔ)音的人機交互過(guò)程并沒(méi)有那么的順利,常常會(huì )上下文沒(méi)有邏輯。
對于這種問(wèn)題,溫正棋將原因總結為兩點(diǎn),分別是語(yǔ)音識別不準確以及對話(huà)的不準確。至于如何解決,前者的關(guān)鍵還是在于“特定”,在收集特定領(lǐng)域的數據之后,再通過(guò)迭代遷移學(xué)習算法等等,不斷地將模型進(jìn)行更新。“這種快速迭代的方法更適合我們這種小公司。”他表示。
至于對話(huà),眾做周知,在具體的應用中,其中關(guān)鍵部分自然語(yǔ)言處理的準確率并不存在百分之百的情況,為了更好地效果,還是需要將應用場(chǎng)景進(jìn)行固定。從本質(zhì)上講,這一解決方案與語(yǔ)音識別的解決方案是相同的,講究專(zhuān)用、講究特定領(lǐng)域。
在采訪(fǎng)中,溫正棋提到,他經(jīng)常會(huì )分析一個(gè)問(wèn)題:智能語(yǔ)音技術(shù)的人才主要是由哪些隊伍來(lái)產(chǎn)生的?“從全國的角度來(lái)看,智能語(yǔ)音人才主要由這么幾個(gè)渠道產(chǎn)生,像科大訊飛、清華北大、中國科學(xué)院自動(dòng)化研究所,以及西工大、上海交大等等,每年出來(lái)的智能語(yǔ)音技術(shù)方向的人才的數量其實(shí)很少,但是市場(chǎng)上的需求是很大。”
對于智能語(yǔ)音技術(shù)行業(yè)的進(jìn)入門(mén)檻,溫正棋稱(chēng)并不低,除了技術(shù)上存在的門(mén)檻,數據積累是一個(gè)不容忽視的重要部分,尤其是在做垂直領(lǐng)域的時(shí)候。
從創(chuàng )業(yè)角度來(lái)講,“除了單獨的技術(shù)儲備,還需要擁有對應的數據積累與運用。”如今,所在智能化的驅使下,不管是算法的訓練,亦或是產(chǎn)品的功能實(shí)施,數據的重要性愈加凸顯。而對于從事智能語(yǔ)音技術(shù)的創(chuàng )業(yè)者而言,如何在保證隱私、數據安全的前提下獲得大量數據,是他們時(shí)刻都需要考慮的問(wèn)題。
結語(yǔ)
目前,基于自身定位的調整,接下來(lái),極限元將基于智能機器人、智能客服等業(yè)務(wù)來(lái)積累數據。另外,再加以對市場(chǎng)的調研,以此前提到的三個(gè)業(yè)務(wù)角度為中心向外圍進(jìn)行擴展,根據市場(chǎng)的實(shí)際需求來(lái)定制產(chǎn)品服務(wù)。
距離上一次天使輪融資,極限元已經(jīng)走過(guò)了一年多的時(shí)間。據溫正棋在采訪(fǎng)中透露,雖然公司略有盈余,但也正著(zhù)手準備開(kāi)啟下一輪融資,希望投資方能夠帶來(lái)更多的應用場(chǎng)景資源。
【鎂客·請講】專(zhuān)注于報道科技創(chuàng )新項目;我們敞開(kāi)心扉面對每一位創(chuàng )業(yè)者,力求為您呈現一群鮮活、有性格的品牌和人物;我們傾聽(tīng)創(chuàng )業(yè)故事和人生經(jīng)歷、探討商業(yè)模式和行業(yè)趨勢、對接資本市場(chǎng)和供需雙方,以期為產(chǎn)業(yè)發(fā)展注入新的活力。
歡迎做客【鎂客·請講】,欄目合作請發(fā)送郵件至:post@im2maker.com
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
