沸騰新十年 | 中國語(yǔ)音產(chǎn)業(yè)江湖和科大訊飛的前半生
以語(yǔ)音第一股的科大訊飛為主線(xiàn),描述了在這三個(gè)時(shí)代中它得到了怎樣的機會(huì )和面臨的挑戰。
文章來(lái)源:左林右貍(Left-Right-007)作者:J金紅
寫(xiě)在前面:
這是《沸騰新十年》的第十一篇劇透文,也是2019年的第一篇劇透文,從確認選題到采編到反復修改,這篇稿子操作時(shí)間前后歷經(jīng)近半年。究其原因,主要是這個(gè)江湖歷史更久遠,中國科技日新月異,這也是左林右貍將這次寫(xiě)科技史的時(shí)間拉在近10年內的原因,而語(yǔ)音的產(chǎn)業(yè)化歷經(jīng)了20年的沉淀,在這20年中有太多的風(fēng)流人物和精彩故事我們想要講述,這樣的野心以至于讓文章的框架拉得越來(lái)越大。
從2018年8月份開(kāi)始,左林右貍拜訪(fǎng)和研究了近百家語(yǔ)音企業(yè)和學(xué)術(shù)機構,我們發(fā)現語(yǔ)音在產(chǎn)業(yè)化時(shí)歷經(jīng)了三個(gè)時(shí)代,PC時(shí)代、移動(dòng)互聯(lián)網(wǎng)時(shí)代和AIoT時(shí)代,在每個(gè)時(shí)代語(yǔ)音都出現過(guò)高潮,也出現了新的機會(huì )和新一批的創(chuàng )業(yè)者。最終我們還是以產(chǎn)業(yè)化最久也是語(yǔ)音第一股的科大訊飛為主線(xiàn),描述了在這三個(gè)時(shí)代中它得到了怎樣的機會(huì )和面臨的挑戰。
本文作者金紅是沸騰新十年里新智造和AI+多個(gè)賽道的主筆,也是《無(wú)人機江湖和汪滔的前半生》一文作者。金紅也在操刀《大國智造》一書(shū),歡迎各界人士和她聊天。
一
巢湖半湯溫泉,中國四大名泉之一,位于安徽巢湖市東北部的湯山腳下,因一熱一冷兩大溫泉匯聚而成冷熱各半的自然景觀(guān)而得名為半湯。
2000年的秋冬之際,CEO劉慶峰帶著(zhù)科大訊飛最開(kāi)始的近20名干將從科大訊飛所在城市合肥驅車(chē)一小時(shí)抵達半湯,召開(kāi)為期兩天的年度會(huì )議,這被稱(chēng)為科大訊飛公司歷史上著(zhù)名的半湯會(huì )議。
半湯會(huì )議持續了兩天,因為公司財務(wù)情況已經(jīng)見(jiàn)衰,有人提出把公司解散了,有人說(shuō)用科大的招牌和政府的支持炒房地產(chǎn)賺錢(qián),十幾個(gè)人各抒己見(jiàn),各方意見(jiàn)始終未能統一,最后劉慶峰直接拍板:繼續做語(yǔ)音,誰(shuí)不樂(lè )意,直接走人。
這不是劉慶峰關(guān)于科大訊飛做出的第一個(gè)重要決定,之前的1999年6月,他也在眾多選擇中選擇了堅持向前走的決定。
時(shí)間回溯到1999年6月,對于劉慶峰來(lái)說(shuō),當時(shí)擺在他面前的有三個(gè)選擇:一是走學(xué)術(shù)路線(xiàn)出國讀博,已經(jīng)有學(xué)校愿意提供幾萬(wàn)美元的獎學(xué)金;二是接受剛剛組建微軟亞洲研究院的李開(kāi)復提供的微軟獎學(xué)金,到微軟實(shí)習一個(gè)月,作為日后投身產(chǎn)業(yè)界、進(jìn)入微軟這樣的大公司的跳板;三是帶領(lǐng)實(shí)驗室的師兄弟們,一起做一番事業(yè)。
在這三條路中,劉慶峰選擇的是看起來(lái)難度最大的一條,他放棄了出國讀博的打算,婉拒了李開(kāi)復的邀請,提出了一邊攻讀博士、一邊創(chuàng )業(yè)的想法,在得到導師的首肯之后,劉慶峰以實(shí)驗室為班底,成立了安徽硅谷天音信息科技有限公司,半年后,公司改名為科大訊飛。
科大訊飛早期創(chuàng )業(yè)團隊
回顧這一足以改寫(xiě)今日中國語(yǔ)音產(chǎn)業(yè)江湖市場(chǎng)格局的選擇,我們便會(huì )發(fā)現劉慶峰在當時(shí)做出的決定并非偶然。當時(shí)劉慶峰擔任福建中銀集團與中科大建立的聯(lián)合實(shí)驗室、中文語(yǔ)音合成第一個(gè)產(chǎn)業(yè)化的實(shí)體中銀天鷹智能多媒體實(shí)驗室的總工程師,和師兄弟一起開(kāi)始為中銀集團提供技術(shù)支持。在摸著(zhù)石頭過(guò)河,將語(yǔ)音合成產(chǎn)業(yè)化的過(guò)程中,劉慶峰發(fā)現做產(chǎn)品與做技術(shù)有很大不同,做產(chǎn)品是需要迎合市場(chǎng)需求,但當時(shí)市場(chǎng)上并不確定需要語(yǔ)音做什么。中銀集團有很多想法,今天想搞個(gè)語(yǔ)音PDA,明天又想做個(gè)語(yǔ)音聽(tīng)寫(xiě)軟件,后天又搞工商查詢(xún)系統,搞得團隊疲憊不堪。兄弟們受不了,便找到劉慶峰說(shuō),要么你出來(lái)當CEO,要么我們就解散。
劉慶峰的博士生導師也對他說(shuō),這個(gè)事情可以成,這么多優(yōu)秀的年輕人能團結在一起,在科大的歷史上還從來(lái)沒(méi)有過(guò),要是解散就太可惜了。
劉慶峰的導師王仁華是國內語(yǔ)音合成領(lǐng)域研究的泰斗,在當時(shí)的語(yǔ)音界有南北“二王”之稱(chēng),其中南王指的就是中科大王仁華,王仁華最開(kāi)始也擔任科大訊飛的董事長(cháng),但并非大股東,他的股份遠比劉慶峰少,甚至一半都沒(méi)有,這在當時(shí)蠻匪夷所思的,今天也不少人難以理解,但正是王仁華的高風(fēng)亮節成就了科大訊飛今天的輝煌,王仁華與劉慶峰模式也成為中國高校企業(yè)科技創(chuàng )新的重要模式創(chuàng )新,之后李澤湘與汪滔、王田苗與高祿峰都遵循這個(gè)模式。
王仁華從1967年開(kāi)始任教于中國科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系,長(cháng)期從事人機語(yǔ)音通信,數字信號處理,多媒體通信方面的科研和教學(xué)工作,其研究的LPC語(yǔ)音合成技術(shù)在1985年獲中國科學(xué)院科技進(jìn)步三等獎,在語(yǔ)音合成方向多次獲國家科技獎??拼笥嶏w的前十年,其業(yè)務(wù)也是基于語(yǔ)音合成技術(shù)。
王仁華(中)和科大訊飛團隊
語(yǔ)音合成,又稱(chēng)文語(yǔ)轉換(TTS,Text to Speech)技術(shù),是用人工的方式模擬人聲,從而將任意文字信息轉化為語(yǔ)音。1939年,貝爾實(shí)驗室H· 杜德利(H . Dudley)利用共振峰原理制作的語(yǔ)音合成器是歷史上第一臺電子合成器;1960年,瑞典語(yǔ)言學(xué)家G.Fant提出用線(xiàn)性預測編碼(LPC)作為語(yǔ)音合成分析技術(shù),推動(dòng)了語(yǔ)音合成的發(fā)展;1980年,D·克拉特(D. Klatt)設計出串/并聯(lián)混合型共振峰合成器,已經(jīng)可以模擬不同的嗓音;20世紀90年代,隨著(zhù)計算和存儲能力大幅度提升,基于大語(yǔ)料庫的單元挑選與波形拼接合成方法出現,可以合成出高質(zhì)量的自然人語(yǔ)音。王仁華正是這個(gè)時(shí)間開(kāi)始深耕語(yǔ)音合成領(lǐng)域。
1993年,在中科大召開(kāi)的全國語(yǔ)音識別與合成研討會(huì )上,王仁華教授提出了試用播音員錄音的基因片段加處理的方法獲得了當時(shí)863專(zhuān)家組負責智能接口的專(zhuān)家高文的首肯,并撥給20萬(wàn)元進(jìn)行研究,在此之后,王仁華教授的課題獲得了863計劃的滾動(dòng)支持。
多說(shuō)一句,王仁華教授在1993年訪(fǎng)問(wèn)美國麻省理工學(xué)院(MIT)時(shí),當時(shí)在MIT任職的也是中科大校友的鄧力招待過(guò)他的訪(fǎng)問(wèn)并交流了不少語(yǔ)音技術(shù)問(wèn)題。而高文也在1992年在MIT計算機系做過(guò)訪(fǎng)問(wèn)學(xué)者,這個(gè)世界不大。
而1992年考入中科大的劉慶峰因為成績(jì)優(yōu)異,在大一就被王仁華看中吸收入人機語(yǔ)音通信實(shí)驗室參與了相關(guān)863項目,1995年也就是劉慶峰大三那年起擔任語(yǔ)音合成項目的負責人。1995年和1997年,中科大在863專(zhuān)家組主持的文語(yǔ)轉換系統評測和中期檢查中獲得多項第一,劉慶峰均參與其中;1998年,劉慶峰帶隊參加了在北京的863語(yǔ)音合成評測,這一次中科大在評測中獲得了3分(5分是播音員水準,4分是普通人發(fā)音表現,而3分則是勉強可以接受的),這是當時(shí)語(yǔ)音合成獲得最高的分數,“唯一達到了可實(shí)用階段”。
隨后在1998年8月的“國家火炬計劃十周年成就暨高新技術(shù)產(chǎn)品博覽會(huì )”中,中科大的語(yǔ)音合成系統被選為唯一的軟件標志性產(chǎn)品而列在特展位上;1998年12月,在新加坡舉行的國際漢語(yǔ)口語(yǔ)處理研討會(huì )(ISCSL)上,中科大的KD語(yǔ)音合成系統被與會(huì )各國專(zhuān)家高度評價(jià),劉慶峰介紹KD系統的論文也獲得了大會(huì )的最佳學(xué)生論文獎(有意思的是,鄧力當時(shí)是ISCSL的創(chuàng )始人之一,他向劉慶峰發(fā)了最佳學(xué)生論文獎)。不難想象,1999年的劉慶峰正是春風(fēng)得意時(shí),這時(shí)候的他更希望做的是能改變世界的大事。
一方面是國外的博士和微軟獎學(xué)金,另一方面是7年順風(fēng)順水的研究和導師的勉勵、師兄弟們的期盼,選擇創(chuàng )業(yè)也就順理成章了。就這樣,中科大、安徽省經(jīng)貿委出資,劉慶峰也出了十萬(wàn)元,再和17個(gè)兄弟們一人湊了點(diǎn)錢(qián),以300萬(wàn)元將原來(lái)賣(mài)給中銀集團的技術(shù)買(mǎi)回,成立了科大訊飛的前身硅谷天音。雖然此前實(shí)驗室已經(jīng)拿到了不少的榮譽(yù),但畢竟沒(méi)有市場(chǎng)化的產(chǎn)品,因此初創(chuàng )之時(shí)的硅谷天音仍然將主要精力放在語(yǔ)音合成引擎的開(kāi)發(fā)上,有了這款引擎,才好去談投資和商務(wù)合作。
在研發(fā)過(guò)程中,科大訊飛遭遇了第一次資金短缺問(wèn)題,每個(gè)月花的錢(qián)比掙的錢(qián)多,賬面上的資金越來(lái)越少。劉慶峰的壓力很大,劉慶峰他開(kāi)始找投資方,但并不順利。
此時(shí),另一家語(yǔ)音企業(yè)金耳麥被當時(shí)與Nuance齊名的Infotalk(以語(yǔ)音識別和語(yǔ)音搜索技術(shù)見(jiàn)長(cháng),2005年被賣(mài)給了新加坡的Creative公司)高價(jià)收購。金耳麥由沈康麒于1999年創(chuàng )立,由于研發(fā)出中文語(yǔ)音識別算法,在成立8個(gè)月即被Infotalk收購,沈康麒本人也進(jìn)入新公司擔任高管。沈康麒兜兜轉轉一圈后重新回到語(yǔ)音產(chǎn)業(yè)江湖,他現在是車(chē)載語(yǔ)音服務(wù)平臺公司車(chē)音網(wǎng)的CEO。語(yǔ)音識別當時(shí)在中國還比較少應用在產(chǎn)業(yè)中,而科大訊飛當時(shí)也只是有語(yǔ)音合成技術(shù),語(yǔ)音識別技術(shù)是從國外語(yǔ)音技術(shù)提供商Nuance采購的。看到金耳麥被收購,劉慶峰幾次北上北京與沈康麒商議Infotalk收購科大訊飛的可能性。沈康麒非??春脙杉夜镜幕パa性,遂向公司建議收購科大訊飛??上У氖?,Infotalk最后并沒(méi)有選擇科大訊飛,而是收購了另外一家境外公司。
被Infotalk放棄后,劉慶峰不氣餒的繼續尋求融資機會(huì )。好不容易有人有投資意向,不過(guò)他們卻都不希望科大訊飛繼續待在偏遠的合肥,而應該去北京或上海。
合肥市時(shí)任市長(cháng)車(chē)俊聽(tīng)到這一消息,嚇了一跳。雖然合肥有中科大,但當時(shí)正是中國通信行業(yè)發(fā)展高峰期,培養的人才被華為、中興都包攬去了,留在合肥的少得可憐。如果科大訊飛這時(shí)候再轉移陣地,那就真的留不住人了。
要想把科大訊飛留在合肥,只有解決了他們的資金問(wèn)題。于是在1999年底,車(chē)俊將合肥美菱股份有限公司、合肥永信信息產(chǎn)業(yè)有限公司以及安徽省信托投資公司的負責人帶到科大訊飛的辦公室,為其展示了語(yǔ)音合成技術(shù)。會(huì )后,三家企業(yè)分別出資1000萬(wàn)投資科大訊飛,各占17%??拼笥嶏w的資金危機暫時(shí)解除了,也如車(chē)俊所愿留在了合肥,自此也開(kāi)啟了科大訊飛與合肥政府之間20年緊密的聯(lián)系。
3000萬(wàn)資金到位后,劉慶峰和兄弟們準備大干一場(chǎng)。當時(shí)電腦剛開(kāi)始進(jìn)入許多中國家庭,很多用戶(hù)根本不會(huì )操作,科大訊飛看準了這個(gè)“痛點(diǎn)”,推出了第一款產(chǎn)品“暢言2000”。這是一款基于IBM研發(fā)的語(yǔ)音識別系統ViaVoice研發(fā)的中文語(yǔ)音系統,用上了科大訊飛多年來(lái)語(yǔ)音合成領(lǐng)域的技術(shù)積累,定價(jià)一千多元,功能上相當于電腦上的Siri,借助語(yǔ)音方便電腦操作,還打出了“會(huì )說(shuō)話(huà)就會(huì )用電腦”的廣告。劉慶峰將銷(xiāo)售渠道鋪到了全國10多個(gè)省,他們甚至預想了產(chǎn)品熱銷(xiāo)的豐滿(mǎn)夢(mèng)想,但由于語(yǔ)音輸入和控制并非硬需求,大多數人還是更習慣于使用鍵盤(pán)和鼠標,加之價(jià)格太高,暢言2000幾乎無(wú)人問(wèn)津,科大訊飛也由此虧掉兩千多萬(wàn)。
由于暢言2000的失利,科大訊飛再次陷入了資金缺失的困境,也讓團隊開(kāi)始懷疑語(yǔ)音產(chǎn)業(yè)的未來(lái)。痛定思痛,劉慶峰把隊伍拉到了巢湖半湯溫泉,希望在這樣一個(gè)放松的環(huán)境下,想清楚自己能夠做什么。
今天復盤(pán),劉慶峰當時(shí)之所以如此堅持,是他知道還未到窮途末路的時(shí)候,雖然ToC市場(chǎng)出師不利,但在ToB市場(chǎng),基于語(yǔ)音合成技術(shù),公司還有數十家企業(yè)的訂單,他覺(jué)得重整山河發(fā)力ToB市場(chǎng),勝負依然為未可知。
1999年10月在中國國際高新技術(shù)成果交易會(huì )上,華為的一名員工對科大訊飛的語(yǔ)音合成技術(shù)很感興趣,并邀請其團隊到華為在蛇口的辦公室做深入交談??拼笥嶏w總工程師陳濤帶領(lǐng)團隊在華為住了一個(gè)多月,最終通過(guò)了華為的測試。
2000年初華為與科大訊飛簽訂了供貨商協(xié)議,購買(mǎi)語(yǔ)音合成技術(shù)。此時(shí),中國電信的168電話(huà)信息平臺開(kāi)始鋪向全國,涉及到大量的客服工作,語(yǔ)音合成技術(shù)有望能解決這個(gè)問(wèn)題,繼華為之后,在當年年底中興、鑫泰、神州數碼等50多家企業(yè)都與科大訊飛簽訂了合同。
當然,客服語(yǔ)音技術(shù)還是很復雜的,不是把語(yǔ)音轉化成文本就可以了。當時(shí),科大訊飛做的只是語(yǔ)音轉接,即直接對著(zhù)電話(huà)說(shuō)找某個(gè)人,通過(guò)識別出人名而在事先獲取的通訊錄信息中進(jìn)行搜索匹配從而將電話(huà)轉接到該人的電話(huà)線(xiàn)。這涉及到信息數據問(wèn)題。因為早期數據還比較少,因此客服語(yǔ)音技術(shù)也只是在少范圍內使用。
在半湯會(huì )議明確了發(fā)展方向后,劉慶峰編寫(xiě)了一份“未來(lái)發(fā)展規劃”,繼續尋找投資,他們很快遇到了聯(lián)想創(chuàng )投。
這份規劃書(shū)在聯(lián)想創(chuàng )投眼中“還有些稚嫩”,但在柳傳志和劉慶峰談了兩個(gè)多小時(shí)后,柳傳志就確定了“這家公司一定要投”,并將聯(lián)想創(chuàng )投將第一個(gè)投資名額給了科大訊飛。
聯(lián)想之后,復星集團和英特爾也選擇投資了科大訊飛。不同的是,聯(lián)想的300萬(wàn)美元是以增資的方式真金白銀的給到了科大訊飛,而復星集團和英特爾則是從安徽信托、美菱集團、合肥永信三家第一輪投資人手中買(mǎi)的老股。
雖然拿到了投資,但科大訊飛的經(jīng)營(yíng)狀況并沒(méi)有馬上改善。直到2004年聯(lián)想創(chuàng )投的一次投資項目總結會(huì )上,科大訊飛還被當作不賺錢(qián)的反面教材。
二
轉機出現在2004年??拼笥嶏w的誕生是基于863計劃支持下的項目技術(shù)產(chǎn)業(yè)化,從一開(kāi)始就得到了政府的資助與支持,科大訊飛也一直是安徽省政府和科技部等部委眼中的好學(xué)生:2000年6月,科大訊飛被科技部認定為國家863計劃成果產(chǎn)業(yè)化基地,2002年,以中科大為第一完成單位的“KD系列漢語(yǔ)文語(yǔ)轉換系統”被評為國家科技進(jìn)步二等獎,是政府和相關(guān)部門(mén)眼中的“好學(xué)生”,而在最后,仍然是政府拯救了它。
2004年,時(shí)任教育部副部長(cháng)的袁貴仁到科大訊飛視察,提出將訊飛的語(yǔ)音識別技術(shù)應用于普通話(huà)考試,這對當時(shí)的科大訊飛可謂量身定做,天下掉餡餅樣的好事。自此,訊飛以普通話(huà)測評切入智能教育。在這一年,科大訊飛終于扭虧為盈。
接下來(lái)的一年科大訊飛繼續被幸運眷顧。2005年彩鈴從韓國引進(jìn)中國,受到消費者的熱烈追捧。但令運營(yíng)商困擾的是,電話(huà)只能通過(guò)按鍵選擇1至9之間的9首彩鈴。語(yǔ)音成為解決這個(gè)問(wèn)題的最優(yōu)選擇之一。
不過(guò),要做這個(gè)事情,得有比較成熟的語(yǔ)音識別技術(shù),這個(gè)在當時(shí)并非科大訊飛的專(zhuān)長(cháng),語(yǔ)音識別當時(shí)國內的正規軍和排頭兵是中科信利。
有意思的是,在投資科大訊飛之前,聯(lián)想還對比考察了中科信利。中科信利的強項在語(yǔ)音分類(lèi)與檢索技術(shù)和語(yǔ)音識別,是曾任英特爾中國研究中心主任、首席研究員的顏永紅他麾下的英特爾中國研究中心語(yǔ)音部的幾名研究員回到中科院聲學(xué)所時(shí)在組建中科信利語(yǔ)音實(shí)驗室的同時(shí)成立的企業(yè),方便對實(shí)驗室的研究成果進(jìn)行商業(yè)運作。應該說(shuō)中科信利與科大訊飛各有特色,在二選一中,柳傳志因為劉慶峰描繪的場(chǎng)景而投資了科大訊飛,而中科信利也很快成為當時(shí)科大訊飛最大的競爭對手。
左林右貍團隊拜訪(fǎng)中科信利聯(lián)合創(chuàng )始人趙慶衛
幾乎在科大訊飛承接安徽聯(lián)通彩鈴業(yè)務(wù)的同時(shí),中科信利也承接了中國移動(dòng)的IVR(互動(dòng)式語(yǔ)音應答)業(yè)務(wù),并在2005-2007年成為中國移動(dòng)的IVR業(yè)務(wù)合作伙伴。
于公于私,中科信利很難把語(yǔ)音識別技術(shù)給對手科大訊飛。
科大訊飛想到的辦法是借雞生蛋,他們找上了全球語(yǔ)音巨頭Nuance,成為Nuance的代理,但為了更好的拓展市場(chǎng),科大訊飛采取與Nuance建立聯(lián)合實(shí)驗室的方式曲線(xiàn)入局。
得到Nuance的助力,科大訊飛開(kāi)發(fā)了一套可以讓消費者使用語(yǔ)音選擇彩鈴的系統“聲動(dòng)炫鈴”。這套系統被迅速從安徽聯(lián)通推廣到聯(lián)通總部,中國電信、中國移動(dòng)開(kāi)通彩鈴業(yè)務(wù)后也選擇了這套系統。基于此,科大訊飛進(jìn)一步探索了個(gè)性化彩鈴、愛(ài)吼網(wǎng)等產(chǎn)品,當時(shí)聯(lián)通的音樂(lè )、彩鈴相關(guān)語(yǔ)音業(yè)務(wù)平臺幾乎都由其包攬。
憑借上述業(yè)務(wù)和收入,科大訊飛開(kāi)始了連續3年凈利潤130%的復合增長(cháng)。2007年營(yíng)收突破2億元。2008年5月12日,科大訊飛成功登陸深交所,成為中國第一個(gè)由在校大學(xué)生創(chuàng )業(yè)的上市公司,也是中國語(yǔ)音產(chǎn)業(yè)至今唯一的上市公司。
科大訊飛在深交所敲鐘
科大訊飛一上市受到諸多熱捧,一是發(fā)行市盈率為29.98倍,接近當時(shí)證監會(huì )允許的30倍的最高上限;二是首次發(fā)行超額認購倍數卻高達2313倍,中簽率低至0.04%。
一片歡欣鼓舞之下,劉慶峰還是保持了冷靜。當時(shí)的局面是,語(yǔ)音合成是科大訊飛的強項,占據了語(yǔ)音合成70%以上的市場(chǎng)份額;而語(yǔ)音識別相對較弱,在識別類(lèi)電信級語(yǔ)音平臺產(chǎn)品更是需要向Nuance公司購買(mǎi)語(yǔ)音識別授權,嚴重影響了該業(yè)務(wù)的毛利率進(jìn)而影響整個(gè)公司的收益。很顯然,劉慶峰得建立起屬于科大訊飛自己的語(yǔ)音識別研發(fā)力量,而要單開(kāi)語(yǔ)音識別這條線(xiàn),劉慶峰得先找一個(gè)業(yè)務(wù)帶頭人,劉慶峰想到了胡郁。
劉慶峰和胡郁兩個(gè)人都是宣城同鄉,劉慶峰報考高考志愿是找胡郁父親給的建議,兩人是世交。劉慶峰是以高于清華錄取線(xiàn)40多分的成績(jì)考的中科大,也是那年1990年宣城理科狀元,胡郁是1995年進(jìn)中科大的,他是1995年宣城理科狀元,科大訊飛還有一位宣城人,胡國平,科大訊飛研究院的副院長(cháng),他也是1995年進(jìn)中科大的,他是那一年的宣城理科榜眼。宣城離合肥不遠,當時(shí)沒(méi)有高鐵,但也是一天來(lái)回。
當時(shí)的一個(gè)契機是,胡郁老婆在香港大學(xué)霍強教授處讀博士后,想讓胡郁跟著(zhù)去陪讀兩年,霍強教授也是王仁華的學(xué)生(1998年在日本京都ATR同當時(shí)在那做sabbatical語(yǔ)音研究的鄧力教授共事過(guò)),當時(shí)在語(yǔ)音識別領(lǐng)域已經(jīng)形成自己的江湖地位,劉慶峰去找老師王仁華商量,王仁華給了一個(gè)建議,胡郁在給老婆陪讀的同時(shí)給霍強做研究助理,借此開(kāi)始建立起科大訊飛在語(yǔ)音識別的班底。
2007年,霍強從香港大學(xué)轉去微軟亞洲研究院后,胡郁又去找王仁華的另一個(gè)學(xué)生江輝合作,江輝也是科大訊飛創(chuàng )業(yè)18羅漢之一,是當時(shí)中科大BBS上黑客版的版主,比劉慶峰高三屆,因東京大學(xué)讀博士離開(kāi)。江輝在東京大學(xué)得到博士之后,被當時(shí)在加拿大滑鐵盧大學(xué)任教的鄧力教授招去做博士后。后來(lái)經(jīng)鄧力大力推薦江輝去了加拿大約克大學(xué)當教授,江輝今天是訊飛超腦計劃的組長(cháng)。
在語(yǔ)音識別領(lǐng)域,科大訊飛與清華王作英實(shí)驗室也在合作,當時(shí)王作英實(shí)驗室與科大訊飛對接的是一位叫吳軍的人,對,就是寫(xiě)出《浪潮之巔》等暢銷(xiāo)書(shū)的吳軍,吳軍今天是豐元資本的合伙人之一,也是著(zhù)名的知識網(wǎng)紅,當時(shí)他是王作英老師的碩士研究生。
就這樣,胡郁三箭齊發(fā),開(kāi)始逐步組建起科大訊飛在語(yǔ)音識別領(lǐng)域的團隊,但外界對科大訊飛的認知還是語(yǔ)音合成,胡郁和他的團隊需要一次機會(huì )告知外界,科大訊飛不僅在語(yǔ)音合成上行,在語(yǔ)音識別上也行。
這個(gè)機會(huì )很快到來(lái),就是由美國國家標準技術(shù)研究院舉辦的國際說(shuō)話(huà)人識別評測大賽(NIST Speaker RecognitionEvaluation, NIST SRE)。2008年的NIST SRE評測提供了包含麥克風(fēng)語(yǔ)音、電話(huà)語(yǔ)音等在內的不同來(lái)源的數據,再加上訓練集與數據集的排列組合,共計有13項評測,是歷年來(lái)評測組數最多的一屆。這也給了科大訊飛以突破的機會(huì ),所提交的USTC-iFly系統也獲得識別等錯誤率(EER)、最小檢測代價(jià)(minDCF)兩項第一名和檢測代價(jià)(DCF)第三名。為此,科大訊飛在2008年6月5日特地發(fā)表公告報喜,稱(chēng)“語(yǔ)音識別與語(yǔ)音合成核心技術(shù)的共同進(jìn)步將對科大訊飛業(yè)務(wù)持續健康發(fā)展起到積極推動(dòng)作用。”
但這只是科大訊飛語(yǔ)音識別業(yè)務(wù)的一小步——NIST SRE評測的內容是,給定目標說(shuō)話(huà)人以及包含六個(gè)說(shuō)話(huà)人的測試語(yǔ)音片段,識別目標說(shuō)話(huà)人是否在測試語(yǔ)音片段中說(shuō)話(huà)。這更多的反映的是代表說(shuō)話(huà)人身份的相關(guān)特征(如反映聲門(mén)開(kāi)合頻率的基頻特征、反映口腔大小形狀及聲道長(cháng)度的頻譜特征等)的語(yǔ)音信號提取能力,而非具體內容的識別。
此外,科大訊飛在NIST SRE評測所采取的GMM-UBM與GMM-SVM整合的模型在本次大賽中也被多家參賽機構使用。如科大訊飛的友商、背靠清華大學(xué)語(yǔ)音和語(yǔ)言技術(shù)中心的得意音通,在NISTSRE評測中采取的也是同樣的模型,科大訊飛雖然在模型構建、調參等細節上稍占上風(fēng),但大家基本在同一水平線(xiàn)上,并沒(méi)有拉開(kāi)距離。
更困難的是語(yǔ)音識別技術(shù)在商業(yè)級別上的進(jìn)一步應用:語(yǔ)音識別的主流方式是使用高斯混合模型(GMM)來(lái)建模,尤其以高斯混合模型+隱馬爾科夫模型(GMM-HMM)在很長(cháng)時(shí)間內都是占據壟斷地位的建模方式。李開(kāi)復的成名作、基于統計學(xué)原理開(kāi)發(fā)的第一個(gè)“非特定人連續語(yǔ)音識別系統”SPHINX,其核心框架就是GMM-HMM,其中GMM用來(lái)對語(yǔ)音的觀(guān)察概率進(jìn)行建模,HMM則對語(yǔ)音的時(shí)序進(jìn)行建模。Sphinx的出現打破了當時(shí)主流的“計算機難以有效識別連續的、不同口音的口語(yǔ)”的觀(guān)點(diǎn),此后Sphinx開(kāi)始顯示出一定的實(shí)用價(jià)值,也使得GMM-HMM成為語(yǔ)音識別的主要方向。
GMM-HMM的優(yōu)點(diǎn)是訓練速度快,可有效降低語(yǔ)音識別的錯誤率;聲學(xué)模型小,容易移植到嵌入式平臺中,但由于GMM沒(méi)有利用幀的上下文信息,不能學(xué)習深層非線(xiàn)性特征變換,在實(shí)際的有噪音的商業(yè)級別應用中依然表現不佳,無(wú)法達到可用的級別。要想實(shí)現語(yǔ)音識別更廣泛的商用,必須采用與以往不同的技術(shù)。
鄧力(左)和何曉冬
在大洋彼岸,華人語(yǔ)音的大神級人物鄧力也在努力解決這一問(wèn)題。在1994年,當鄧力在加拿大滑鐵盧大學(xué)任教時(shí)與其指導的一名博士在博士論文中提出了一種增強神經(jīng)網(wǎng)絡(luò )記憶的新模型,但在效果上仍然無(wú)法超越其他統計學(xué)習方法。就連這篇論文的外部評審、大名鼎鼎的神經(jīng)網(wǎng)絡(luò )之父GeoffreyHinton在看過(guò)這篇論文后都不得不承認,現階段想要在神經(jīng)網(wǎng)絡(luò )方面有所突破實(shí)在太難。這使得鄧力在隨后的十余年中遠離了神經(jīng)網(wǎng)絡(luò )研究,而把精力放在GMM-HMM,貝葉斯統計方法和生成模型研究上。
但現在GMM-HMM在商業(yè)應用上陷入瓶頸,鄧力又想到了神經(jīng)網(wǎng)絡(luò ),他重新研究了Geoffrey Hinton在2006年發(fā)表在《Science》的那篇劃時(shí)代論文《Reducingthe Dimensionality of Data with Neural Networks》, 于是他2009和2010年兩次邀請Hinton來(lái)到西雅圖的微軟雷德蒙研究院,看看如何將這篇文章提出的思路與其正在研究的深度Bayesian 語(yǔ)音識別模型結合起來(lái)。
值得一提的是,這篇論文“降維分層訓練”的觀(guān)點(diǎn)雖然今天看起來(lái)是理所當然,但在當時(shí)這篇論文看起來(lái)還是晦澀的,而且只有短短3頁(yè)紙,很多原理沒(méi)有細講,因而也存在著(zhù)很多的爭議。直到2012年AlexNet在ImageNet上以巨大優(yōu)勢奪冠,才興起了深度學(xué)習的浪潮,這是后話(huà)。
回到2009年底,在這一年的NIPS大會(huì )上,Hinton和鄧力、俞棟舉辦了一個(gè)Workshop,總結了深度學(xué)習各種不同的方法在語(yǔ)音識別上的應用。總體來(lái)說(shuō)當時(shí)鄧力的研究有了一個(gè)階段性的結果,但所有的深度學(xué)習在語(yǔ)音識別的應用都是聚集在大概只有100萬(wàn)幀左右的“小數據量”上,大規模的神經(jīng)網(wǎng)絡(luò )威力還沒(méi)有顯示出來(lái)。
大幕即將拉起,只是你我渾然不知。
三
在中國的語(yǔ)音產(chǎn)業(yè)江湖里,2010年是一個(gè)重要的年份。
在2010年2月和6月,鄧力作為團隊經(jīng)理正式招聘了兩位Hinton的研究生Abdo Mohamed和George Dahl分別加入微軟西雅圖研究院作為實(shí)習生,研究人員開(kāi)始探討如何利用深層神經(jīng)網(wǎng)絡(luò )改善大詞匯量語(yǔ)音識別。Dahl在深層神經(jīng)網(wǎng)絡(luò )訓練的豐富經(jīng)驗對研究產(chǎn)生了很大的推動(dòng),負責該項目的鄧力和他手下的團隊干將俞棟一道提出拋棄傳統的用英語(yǔ)的40個(gè)左右的基本音素建模的方法,而使用深層神經(jīng)網(wǎng)絡(luò ),對一種比音素小很多、叫做senones的建模單元直接建模。senones的數量多達數千個(gè),從音素到senones建模的要求自然高許多,如果做個(gè)類(lèi)比,用senones建模大致相當于材料科學(xué)的納米技術(shù),使得語(yǔ)音識別模型能夠更好地識別語(yǔ)音細節,從而提高了辨析的準確率。
隨后鄧力和俞棟將前饋神經(jīng)網(wǎng)絡(luò )(FeedForward Deep Neural Network,FFDNN)引入到聲學(xué)模型建模中,將FFDNN的輸出層概率用于替換之前GMM-HMM中使用GMM計算的輸出概率,引領(lǐng)了DNN-HMM混合系統的風(fēng)潮,并取得了很好的效果。這一系列研究結果的相關(guān)論文《Deepneural networks for acoustic modeling in speech recognition: The shared viewsof four research groups》于2012年發(fā)表,講述了深度神經(jīng)網(wǎng)絡(luò )對語(yǔ)音識別產(chǎn)生的影響,怎么把不同的機器學(xué)習方法,包括深度神經(jīng)網(wǎng)絡(luò )的方法整合起來(lái),使得大規模的語(yǔ)音識別得到進(jìn)展,文章被引用約5200次,是語(yǔ)音識別領(lǐng)域中的經(jīng)典論文之一。
對于這一改變語(yǔ)音識別業(yè)界格局的研究,科大訊飛成為了微軟總部之外,第一批了解這一信息并著(zhù)手這方面研究的團隊,甚至早于微軟亞洲研究院——2010年9月21日,鄧力受邀回到母校中科大并與科大訊飛交流,他與俞棟分享了將神經(jīng)網(wǎng)絡(luò )應用于語(yǔ)音識別的最新成果。
而在這一年的10月,俞棟才在微軟亞洲研究院聲學(xué)組的一次內部討論中提及使用深度神經(jīng)網(wǎng)絡(luò )和senones建模的相關(guān)研究。
正是在這次內部討論中,微軟亞洲研究院聲學(xué)組的高級研究員Frank Seide意識到了這一研究的價(jià)值,他隨即加入該項目,與俞棟一起,兩支團隊精誠合作,推進(jìn)該項目的研究。
Richard Rashid
在2012年微軟大老板之一、負責全球技術(shù)的副總裁Richard Rashid在天津舉行的一次會(huì )議上當場(chǎng)演示用深度學(xué)習做語(yǔ)音識別,將英文識別后,用機器翻譯成中文,再用語(yǔ)音合成的方法產(chǎn)生中文語(yǔ)音——也就是說(shuō),他在上面講英文,觀(guān)眾可以直接聽(tīng)到和他音色很像的中文——整場(chǎng)演示非常成功,幾乎沒(méi)有錯誤,這也引起了產(chǎn)業(yè)界的轟動(dòng),揭開(kāi)了語(yǔ)音識別產(chǎn)業(yè)應用的新一頁(yè)。這也成為紐約時(shí)報2012年10月份頭版頭條的一大新聞。紐約時(shí)報這篇文章的作者John Markoff親自飛到西雅圖的微軟采訪(fǎng)鄧力, 也采訪(fǎng)了Hinton。
這時(shí)鄧力正代表微軟同谷歌(代表人是Jeff Dean)和百度(代表人是余凱)竟爭,用高價(jià)全職招聘Hinton,最終敗給谷歌(這其中故事多多,有興趣的讀者可以關(guān)注幾個(gè)月內鄧力將出版的一本新書(shū),左林右貍頻道也會(huì )組織讀書(shū)會(huì ),敬請期待)。
Hinton雖然木有去成微軟,但與鄧力一直保持良好的私交,他在多次公開(kāi)演講中高度評價(jià)他同鄧力的合作。在2013年5月Hinton即將開(kāi)始到谷歌工作前夕,Hinton到溫哥華在由鄧力任大會(huì )主席,共3千人參加的IEEE-ICASSP語(yǔ)音國際大會(huì )上作了整一小時(shí)的主題演講。
2010年這一年,也是百度加入語(yǔ)音江湖的一年。2010年初,當時(shí)剛剛加入百度并為其組建自然語(yǔ)言處理部的王海峰找到聲學(xué)所顏永紅的團隊,引進(jìn)了聲學(xué)所的語(yǔ)音技術(shù)后,百度于當年2010年10月在掌上百度上推出語(yǔ)音搜索。
百度此舉是對谷歌的致敬和跟隨,2008年,谷歌重啟了6年前停止研發(fā)的語(yǔ)音項目。
谷歌最早在2002年著(zhù)手開(kāi)發(fā)語(yǔ)音搜索技術(shù),但正如前面結果所證實(shí)的,PC時(shí)代網(wǎng)民還不習慣對著(zhù)大屏幕進(jìn)行語(yǔ)音交互,而智能手機的數量又比較少,因此語(yǔ)音搜索并無(wú)用武之地,谷歌也隨之停止這個(gè)項目的開(kāi)發(fā)。
但6年之后的2008年,iPhone的走紅令谷歌意識到語(yǔ)音搜索的機會(huì )來(lái)臨了。谷歌決定重啟語(yǔ)音搜索開(kāi)發(fā)項目,并首先針對iPhone推出了語(yǔ)音搜索應用程序,隨后又向谷歌Android和RIM黑莓智能手機用戶(hù)免費提供該應用程序。
谷歌的這一動(dòng)作很自然而然引起了百度的注意,雖然此時(shí)谷歌已差不多在大陸無(wú)立足之地。
這一年的6月8日,蘋(píng)果發(fā)布了擁有“100 多項創(chuàng )新設計”的經(jīng)典產(chǎn)品iPhone 4,引發(fā)全球排隊購機熱潮。不過(guò)喬布斯不喜歡大屏,iPhone 4屏幕僅為3.5英寸,用全鍵盤(pán)打字時(shí)存在不少困難。
既然用手指輸入文字體驗不好,可不可以用語(yǔ)音輸入?當時(shí)科大訊飛移動(dòng)互聯(lián)事業(yè)部產(chǎn)品經(jīng)理翟吉博,用了三天時(shí)間寫(xiě)出一個(gè)Demo,后被公司討論后決定正式推向市場(chǎng),迅速引爆市場(chǎng),這讓科大訊飛上下歡欣鼓舞,也成為年度的創(chuàng )新產(chǎn)品之一。
翟吉博之前在摩托羅拉工作,是葛勇的實(shí)習生。葛勇也是科大訊飛最早創(chuàng )業(yè)的18羅漢之一,2008年,恰逢摩托羅拉把語(yǔ)音部門(mén)賣(mài)給Nuance,葛勇帶翟吉博等一票人從摩托羅拉離開(kāi),胡郁借此把葛勇們找回來(lái)。和搜狗輸入法一樣,訊飛輸入法也是妙手偶得。
科大訊飛最開(kāi)始有18個(gè)創(chuàng )始人,上市的時(shí)候有14人是一致行動(dòng)人,這14人中有13人是最早參與創(chuàng )業(yè)的,離開(kāi)的5個(gè)人里,有前文提到的霍強和江輝,以及葛勇,另外兩人是吳義堅和賴(lài)偉,這兩人也是王仁華老師的博士生,今天是兒童機器人元趣公司的兩位創(chuàng )始人,元趣也是市場(chǎng)上為數不多有自己語(yǔ)音合成和語(yǔ)音識別底層技術(shù)的公司,與之前他們超強的技術(shù)背景大有關(guān)聯(lián)。吳義堅是少年大學(xué)生,讀博士期間在科大訊飛干活,活干得很好,博士畢業(yè)的時(shí)候,科大訊飛想讓吳義堅留下來(lái),但吳義堅選擇去了微軟。
吳義堅博士畢業(yè)照
雖然喬布斯不喜歡大屏,但他對于語(yǔ)音也同樣很感興趣。2010年初,一款名為“Siri”的應用在A(yíng)pple Store上線(xiàn),這是一款虛擬助手,可以連接42個(gè)應用,而不用用戶(hù)多次打開(kāi)應用。兩周后,喬布斯便給Siri的創(chuàng )始人AdamCheyer打電話(huà),直接表達想要收購的意愿。此時(shí),Siri剛成功拿到B輪融資,而且與Verizon(美國最大的本地電話(huà)公司)簽訂了一份協(xié)議,在新的一年里成為其旗下所有Android手機的默認應用。但最終喬布斯的堅持還是打動(dòng)了Adam,以2億美元身價(jià)被其收購。Siri也從Android默認應用跳到了iOS專(zhuān)屬應用陣營(yíng)。
科大訊飛這一年發(fā)布了訊飛語(yǔ)點(diǎn)和語(yǔ)音云。2010年10月,科大訊飛推出集成了語(yǔ)音合成、語(yǔ)音搜索和語(yǔ)音聽(tīng)寫(xiě)等交互能力的“訊飛語(yǔ)音云”平臺。
2010年是個(gè)分水嶺,這一年后,中國語(yǔ)音江湖開(kāi)始熱鬧起來(lái)。
四
在語(yǔ)音識別技術(shù)因為深度學(xué)習開(kāi)始取得巨大突破后,工業(yè)界需要一個(gè)足夠流行有足夠多人用的產(chǎn)品來(lái)引爆之。
Siri成為這個(gè)引爆點(diǎn)應運而生的時(shí)代寵兒。
2011年10月4日,在蘋(píng)果的發(fā)布會(huì )上,Siri以語(yǔ)音助手的形式隨iPhone 4S發(fā)布。一開(kāi)始Siri是沒(méi)有聲音的,只是以文本形式推送答案,加入語(yǔ)音技術(shù)是喬布斯的主意。iPhone4S讓語(yǔ)音助手被大眾所認識,但發(fā)布之時(shí)Siri沒(méi)有推出中文服務(wù),這給了很多中國創(chuàng )業(yè)者遐想的空間。
智臻智能開(kāi)始就此迅速轉身,智臻智能的創(chuàng )始人袁輝沒(méi)有看完喬布斯2011年的發(fā)布會(huì ),就給他的合伙人朱頻頻打電話(huà),感慨這不就是他們想做的事情。袁輝曾經(jīng)在微軟工作過(guò),他2001年創(chuàng )辦了智臻智能,朱頻頻則畢業(yè)于中科大,是劉慶峰的師弟。2004年,智臻智能在MSN上推出的聊天助手小i機器人曾風(fēng)靡一時(shí),并引進(jìn)數千萬(wàn)美元的風(fēng)險投資進(jìn)入。
2012年4月,小i機器人iOS版上線(xiàn),在蘋(píng)果WWDC大會(huì )上發(fā)布全新的iOS 6操作系統并在Siri中增加中文服務(wù)后,率先發(fā)起對Siri的侵權官司,袁輝和朱頻頻聯(lián)合創(chuàng )辦的智臻智能向上海一中院提起侵權訴訟,稱(chēng)蘋(píng)果公司的語(yǔ)音助手Siri侵犯了它持有的“聊天機器人系統”專(zhuān)利權。此前智臻智能在2004年推出小i機器人之時(shí),申請了一份名為“一種聊天機器人系統”的專(zhuān)利,直到2009年7月22日獲準授權。智臻智能據此要求禁售所有裝載Siri功能的iPod、iPhone以及iPad產(chǎn)品。如今這場(chǎng)官司還在最高法院,也阻礙了Siri的入華之路。
2012年3月,科大訊飛上線(xiàn)了Android版的中文語(yǔ)音助手訊飛語(yǔ)點(diǎn),只是iOS版在A(yíng)pple Store上遲遲未能通過(guò)上線(xiàn)申請。到2013年1月,在刪減了包括語(yǔ)音撥號、發(fā)短信、搜索音樂(lè )以及設置提醒在內的多項實(shí)用功能后,訊飛語(yǔ)點(diǎn)終于在A(yíng)ppleStore上線(xiàn)。
左林大叔&胡郁
胡郁對左林右貍頻道說(shuō),訊飛語(yǔ)點(diǎn)是全球第二、中國第一的語(yǔ)音助手,言語(yǔ)中充滿(mǎn)了無(wú)比的驕傲。訊飛語(yǔ)點(diǎn)不僅讓科大訊飛的小伙伴們感到驕傲,更重要的讓科大訊飛的發(fā)展迎來(lái)一個(gè)新的臺階,那就是中國移動(dòng)對科大訊飛的入股,這讓科大訊飛在之后的兩三年里成為中國最紅的科技股之一。
2011年年底,借中國移動(dòng)在安徽開(kāi)會(huì ),科大訊飛極力運作了時(shí)任中國移動(dòng)CEO李躍到科大訊飛進(jìn)行考察,就是這次考察中,訊飛語(yǔ)點(diǎn)成功的打動(dòng)了李躍一行,此時(shí)在中國移動(dòng)看來(lái)語(yǔ)音是一門(mén)大生意,可能改變移動(dòng)互聯(lián)網(wǎng)的競爭格局。在中國,誰(shuí)能讓機器更懂中文,成為關(guān)鍵。
2012年8月,中國移動(dòng)正式宣布向科大訊飛注資13.6億元,成為后者的第二大股東。中國移動(dòng)以入股形式投資的企業(yè)并不多,在此之前只有香港鳳凰衛視和上海浦發(fā)銀行,科大訊飛是其投資的第一家技術(shù)型公司。
2012年12月5日,在中國移動(dòng)全球開(kāi)發(fā)者開(kāi)會(huì )上,中國移動(dòng)推出智能語(yǔ)音門(mén)戶(hù)產(chǎn)品“靈犀”。
中國移動(dòng)想通過(guò)這款應用作為入口級的產(chǎn)品,把音樂(lè )、12580、導航、視頻等業(yè)務(wù)一一對接,從而盤(pán)活中國移動(dòng)的整個(gè)數據和業(yè)務(wù)。
中國移動(dòng)一直是科大訊飛的核心客戶(hù),也一直想抓住移動(dòng)互聯(lián)網(wǎng)的入口,曾研發(fā)手機操作系統Ophone,推出移動(dòng)通信飛信、搜索引擎“盤(pán)古搜索”等,但這些項目最后基本上都失敗了。2011年Siri推出后,中國移動(dòng)想與蘋(píng)果合作搶占中國移動(dòng)互聯(lián)網(wǎng)市場(chǎng)未果后選擇了投資科大訊飛。
Siri令投資機構對語(yǔ)音市場(chǎng)的激情高漲,很多語(yǔ)音企業(yè)如思必馳、捷通華聲都是在創(chuàng )業(yè)多年后首次拿到融資。也是在這一年,劉慶峰喊出千億市值的口號。
這一年,也是百度加速進(jìn)入語(yǔ)音行業(yè)的一年。李彥宏參加了內部一個(gè)關(guān)于深度學(xué)習的會(huì )議,會(huì )議結束后他非常吃驚,并給全公司寫(xiě)信,讓所有產(chǎn)品經(jīng)理都要了解人工智能技術(shù)的發(fā)展。
2012年11月,在王海峰推動(dòng)下,由賈磊擔當的百度語(yǔ)音團隊上線(xiàn)了第一款基于DNN的漢語(yǔ)語(yǔ)音搜索系統,這讓百度成為最早采用DNN技術(shù)進(jìn)行商業(yè)語(yǔ)音服務(wù)的公司之一。
賈磊
賈磊也是中國語(yǔ)音江湖里的重要變量,他師從中科院自動(dòng)化所徐波所長(cháng),自動(dòng)化所也是中國語(yǔ)音江湖的四大勢力之一(另外三是聲學(xué)所和二王),作為百度語(yǔ)音首席架構師,在百度期間,賈磊先后帶隊完成了語(yǔ)音輸入法、語(yǔ)音搜索、智能手機語(yǔ)音助手等多個(gè)項目,并曾因為其優(yōu)異的工作表現受到內外部的無(wú)數獎勵,但在2016年卻悄然離開(kāi),而對應的吳恩達帶領(lǐng)團隊研發(fā)的深度語(yǔ)音識別系統DeepSpeech被美國某媒體評為2016年十大突破技術(shù)之一,該技術(shù)也被應用在2016百度世界大會(huì )上發(fā)布的百度語(yǔ)音輸入法。
賈磊離開(kāi)百度與當時(shí)百度的首席科學(xué)家吳恩達關(guān)系頗大,種種信息表明,吳恩達與賈磊曾經(jīng)上演過(guò)一山不容二虎的對決,正是吳恩達在2015年底直接找了李彥宏,讓李彥宏做出了吳恩達in,賈磊out的決定。而在這之前,吳恩達和賈磊都向鄧力請教過(guò)如何處理和調和他們對語(yǔ)音識別產(chǎn)品觀(guān)念上的巨大分岐,鄧力真是華人語(yǔ)音江湖的如來(lái)真佛和超級錦鯉啊。
百度在擊退谷歌后,其最大的競爭對手搜狗的語(yǔ)音研發(fā)之路也是在2012年開(kāi)始的。在外部看來(lái),語(yǔ)音是搜狗在搜索上擊敗百度的機會(huì ),但在王小川自己看來(lái),語(yǔ)音是輸入法順延要做的事情,這位前信息奧賽金牌得主做任何事情,都強調順理成章,就像其覺(jué)得做翻譯棒是語(yǔ)音輸入法的延伸一樣。
王小川&左林大叔
2006年6月,搜狗輸入法正式推出,迅速擊敗紫光拼音、微軟拼音、智能ABC等輸入法,成為全球第一大漢字輸入法。到2008年,搜狗輸入法的市場(chǎng)占有率達到了40%。
2012年,察覺(jué)到語(yǔ)音的重要性后,搜狗也開(kāi)始研發(fā)語(yǔ)音技術(shù),并于兩年后為搜狗輸入法引入語(yǔ)音搜索功能,又兩年后發(fā)布語(yǔ)音交互引擎“知音”。
如今,搜狗、科大訊飛、百度輸入法成為排名前三的中文輸入法,而語(yǔ)音則成為排名的格局變量。
Siri也讓一些語(yǔ)音從業(yè)者看到了新時(shí)代的到來(lái),萌生了創(chuàng )業(yè)的念頭。黃偉是其中的代表性人物,在Siri發(fā)布后沒(méi)多久,也就是2012年春天,他從盛大創(chuàng )新院辭去了語(yǔ)音院院長(cháng)的職位,創(chuàng )立了云知聲。
黃偉同樣是中科大畢業(yè),1994年入學(xué),他的另外一個(gè)聯(lián)合創(chuàng )始人梁家恩也是中科大本科,1996年入學(xué),好吧,如果一個(gè)語(yǔ)音團隊里最核心成員里沒(méi)有中科大的,那就請出門(mén)右拐吧。一開(kāi)始黃偉并非學(xué)語(yǔ)音的,研究生讀的圖像,直到博士才轉做語(yǔ)音。
2004年黃偉博士畢業(yè)的時(shí)候,正好趕上第二次人工智能浪潮瀕臨破滅,很多人都轉行了,黃偉很幸運,他加入了摩托羅拉中國研究中心(MCRC)語(yǔ)音識別部門(mén),主導開(kāi)發(fā)出世界第一款手機聲紋認證系統,當時(shí)黃偉團隊7個(gè)人,共做了幾十款手機的語(yǔ)音識別,支持13國語(yǔ)音,這些手機在摩托羅拉的銷(xiāo)售量中,大概超過(guò)了2億臺。
黃偉學(xué)生時(shí)代,這張照片中除了云知聲的兩個(gè)聯(lián)合創(chuàng )始人黃偉(后右二)和李霄寒(前中),還有計算機視覺(jué)獨角獸云從的兩個(gè)創(chuàng )始人周曦(后右一)和姚志強(前左一)。
2008年在iPhone的變革下,摩托羅拉的手機業(yè)務(wù)備受打擊。摩托羅拉將手機部門(mén)賣(mài)給了谷歌,而為手機而生的語(yǔ)音部門(mén)則被賣(mài)給了通過(guò)一路合并成為全球語(yǔ)音最大市場(chǎng)占有者Nuance。黃偉跟隨團隊去了Nuance,但Nuance的核心團隊在歐美,內心驕傲且年輕的黃偉希望能有更大的作為。
這個(gè)時(shí)候,盛大創(chuàng )新研究院通過(guò)獵頭找到黃偉。
此時(shí),由陳天橋在1999年創(chuàng )立的盛大的網(wǎng)游業(yè)務(wù)達到頂點(diǎn),陳天橋希望擴展到其他領(lǐng)域,由此創(chuàng )立了盛大創(chuàng )新院。盛大創(chuàng )新院由陳天橋胞弟陳大年一手負責,他親自招攬了廣大人才,并給予寬松的環(huán)境。其中,黃偉是陳大年找來(lái)負責語(yǔ)音研究的。
那個(gè)年代中國互聯(lián)網(wǎng)企業(yè)還處于草莽時(shí)期,與摩托羅拉這樣的外企在軟硬件上都有很大差距。黃偉一開(kāi)始對中國互聯(lián)網(wǎng)企業(yè)并無(wú)多大興趣,而且陳大年比自己還小兩歲,這讓黃偉在見(jiàn)陳大年前心里是無(wú)比抗拒的。但見(jiàn)完陳大年后黃偉卻當場(chǎng)答應加入,黃偉對左林右貍頻道說(shuō),陳大年身上有兩點(diǎn)特質(zhì),一個(gè)是人很友好,一個(gè)是頭腦聰明,這兩個(gè)特質(zhì)打動(dòng)了黃偉。
那個(gè)時(shí)候iPhone剛發(fā)布也不過(guò)一年多時(shí)間,在國內智能手機的增長(cháng)是在2008年底開(kāi)始,基數也僅在百萬(wàn)級別。而陳大年在此時(shí)和黃偉大談移動(dòng)互聯(lián)網(wǎng),令黃偉從內心對陳大年刮目相看。
2009年7月,黃偉正式加入盛大創(chuàng )新研究院,并組建語(yǔ)音團隊。
陳大年沒(méi)有給黃偉定什么KPI,隨他和團隊怎么折騰,語(yǔ)音合成、識別,語(yǔ)義識別等等,今天AI里面跟語(yǔ)音相關(guān)的,那時(shí)候他們都做了,為盛大積累了大量的語(yǔ)音基數及專(zhuān)利,其語(yǔ)音團隊在美國國家標準技術(shù)署(NIST)舉辦的聲紋識別評測(SRE)大賽中,力壓麻省理工、斯坦福研究中心、IBM等眾多名校、名企,在9個(gè)單項任務(wù)中獲得多個(gè)單項第一,整體綜合指標第一。黃偉也很早接觸到深度學(xué)習,他在2011年的interspeech會(huì )上和俞棟討論之后就開(kāi)始著(zhù)手做深度學(xué)習語(yǔ)音識別系統。
2013年初,云知聲在創(chuàng )辦半年后馬上發(fā)布了基于深度學(xué)習的微信語(yǔ)音輸入插件,將語(yǔ)音識別率提高到90%以上,并稱(chēng)自己是中國第一個(gè)基于深度學(xué)習的語(yǔ)音識別系統,由此引發(fā)了與科大訊飛的口水戰,但同時(shí)引起了投資機構的關(guān)注,啟明的鄺子平最先找到黃偉,第二天就同意投資。同一時(shí)間,阿里巴巴想以6000萬(wàn)美金收購云知聲,和黃偉談判的是同樣被阿里收購的猛犸科技創(chuàng )始人如今Rokid創(chuàng )始人Misa(祝銘明)。
阿里時(shí)期的Misa
2013年5月10日,馬云在黃龍體育場(chǎng)當著(zhù)數萬(wàn)員工宣布不做CEO讓位給陸兆禧。云知聲黃偉作為觀(guān)禮嘉賓也在現場(chǎng),他在黃龍體育場(chǎng)扯著(zhù)嗓子給三位合伙人打電話(huà),說(shuō)阿里愿意出價(jià)6000萬(wàn)美金全資收購,他想征求下三位合伙人意見(jiàn),賣(mài)還是不賣(mài)。黃偉對左林右貍頻道說(shuō),如果合伙人愿意賣(mài)他就賣(mài),一圈電話(huà)下來(lái),合伙人都說(shuō)不賣(mài),于是轉身拿了之前已經(jīng)給了offer也見(jiàn)過(guò)大老板鄺子平的啟明投資的錢(qián)。
云知聲創(chuàng )始團隊,右三為黃偉
也是2012年,在谷歌工作的李志飛看到了語(yǔ)音產(chǎn)業(yè)的創(chuàng )業(yè)機會(huì ),產(chǎn)生了回國創(chuàng )業(yè)的沖動(dòng)。
李志飛曾在約翰霍普金斯大學(xué)攻讀博士學(xué)位時(shí)研究機器翻譯,開(kāi)發(fā)的一個(gè)開(kāi)源機器翻譯軟件Joshua曾經(jīng)是世界學(xué)術(shù)界兩大主流機器翻譯軟件之一。畢業(yè)之后,李志飛加入谷歌總部擔任科學(xué)家,從事機器翻譯的研究和開(kāi)發(fā)工作,其間主要開(kāi)發(fā)了谷歌的手機離線(xiàn)翻譯系統。
李志飛博士畢業(yè)照
2012年10月,在拿到紅杉資本和真格基金的天使投資之后,李志飛從谷歌離職回國創(chuàng )業(yè),帶著(zhù)“谷歌研究院第一個(gè)回國創(chuàng )業(yè)的科學(xué)家”的頭銜以及雷欣等一批谷歌的同事,一起想在中國創(chuàng )立一個(gè)谷歌一樣的公司,打造下一代移動(dòng)語(yǔ)音搜索產(chǎn)品。N年前在華僑城創(chuàng )意產(chǎn)業(yè)園在接受左林右貍頻道的采訪(fǎng)時(shí),李志飛坦誠他最開(kāi)始的創(chuàng )業(yè)目標就是做一家細分領(lǐng)域的Siri。各位鄰里會(huì )問(wèn),李志飛和雷欣不是做語(yǔ)義的嗎,怎么也跳進(jìn)語(yǔ)音江湖里?多說(shuō)一句,李志飛和雷欣在美國讀博期間都被鄧力招聘過(guò)到他領(lǐng)導的微軟語(yǔ)音團隊做過(guò)實(shí)習生。這個(gè)世界不大。
五
喬布斯在Siri發(fā)布的第二天溘然長(cháng)逝,喬布斯去世后,Siri在蘋(píng)果內部也并沒(méi)有得到重視,兩個(gè)聯(lián)合創(chuàng )始人在Siri發(fā)布后一年內先后離開(kāi),再次聯(lián)合創(chuàng )立了VivLabs,后在2016年以2億美金賣(mài)給了三星,成為三星的手機助手。
Siri最終沒(méi)有大紅,當然有內部派系斗爭的緣故,但歸根結底還是因為這是一個(gè)超越時(shí)代的產(chǎn)品。雖然語(yǔ)音識別在此時(shí)已經(jīng)有很大進(jìn)展,但交互起來(lái)體驗感仍然只是勉強而已。可以說(shuō),如果不是蘋(píng)果,語(yǔ)音助手很有可能還需要一段時(shí)間才會(huì )被大眾所熟知。
Siri雖然未成,但變相教育并統一了市場(chǎng)認知,那就是光靠語(yǔ)音識別,技術(shù)上再先進(jìn)也無(wú)法商用,于是,在2014年這一年,整個(gè)工業(yè)界齊刷刷的從語(yǔ)音識別開(kāi)始轉向語(yǔ)音交互以及認知計算,又回到ToB。
2014年這一年,微軟發(fā)布了小冰,一個(gè)沒(méi)有語(yǔ)音交互功能但界面更友好,親和力更強的AI助手,雖然功能沒(méi)有小娜強大,但定位更清晰的小冰獲得了不比她姐姐少的關(guān)注。
2014年這一年,百度在谷歌推出谷歌大腦后很快宣布了百度大腦計劃,而科大訊飛也緊跟步伐在當年年底的年度發(fā)布會(huì )上宣布正式啟動(dòng)“訊飛超腦”計劃,希望研發(fā)出第一個(gè)中文認知智能計算引擎。
這些大腦計劃,與IBM Waston類(lèi)似,后者是IBM研發(fā)的能夠使用自然語(yǔ)言來(lái)回答問(wèn)題的人工智能系統,2011年該系統在美國的電視問(wèn)答節目Jeopardy!(危險之旅?。┥蠐魯×藘擅祟?lèi)冠軍選手,從此一戰成名。
Waston參加Jeopardy!(危險之旅?。?/p>
Waston脫胎于語(yǔ)音識別系統ViaVoice,后者于1997年推出,是歷史上第一個(gè)連續聽(tīng)寫(xiě)產(chǎn)品,在當時(shí)引起了很大轟動(dòng),次年被評為科技領(lǐng)域十大事件之一,亦促成了微軟、英特爾、摩托羅拉等在中國相繼成立研究院。Waston每秒可以處理500GB的數據,相當于1秒閱讀100萬(wàn)本書(shū)。經(jīng)過(guò)不斷的訓練,系統能夠具備數據整理和分析的能力。而這也意味著(zhù),這個(gè)系統可以接入任何需要智能計算的行業(yè)。
2014年這一年,IBM投資10億美元專(zhuān)門(mén)建立“Watson Group (沃森集團)”,對外提供認知解決服務(wù)方案,主要包括了Watson平臺、Watson醫療、Watson物聯(lián)網(wǎng)三大板塊。就在這一年,WatsonGroup為IBM貢獻197億美元,成為IBM五大業(yè)務(wù)收入板塊之中毛利最高的領(lǐng)域,在IBM總收入的占比也逐年不斷上升。
科大訊飛也看好醫療,不過(guò)前有Watson,后者Nuance,都是自己的老大哥。科大訊飛還是將最大的資源投入到最為公司賺錢(qián)的教育領(lǐng)域,此時(shí)正好遇到了在線(xiàn)教育的爆發(fā)。如今科大訊飛的教育產(chǎn)品包括課堂教學(xué)(在線(xiàn)課堂、暢言交互式多媒體教學(xué)系統、暢言智能語(yǔ)音等)、智能考試(標準考場(chǎng)、網(wǎng)上閱卷、招生考試、普通話(huà)測試、英語(yǔ)聽(tīng)說(shuō)測試等)、學(xué)習產(chǎn)品、教育評價(jià)、早教玩具(能力培養、趣味對話(huà)、故事機等)覆蓋從低到高各層面的產(chǎn)品組織。
同時(shí),科大訊飛收購了很多家語(yǔ)音評測公司,包括啟明科技等,持續的投入和連續的收購讓科大訊飛在教育市場(chǎng)形成了壟斷,目前所有省份的口語(yǔ)評測用的幾乎都是科大訊飛的引擎。
也就是在2014年,思必馳痛下決心將負責教育行業(yè)的部門(mén)聲馳剝離,以9000萬(wàn)賣(mài)給了網(wǎng)龍,自己則把精力收縮專(zhuān)注智能硬件和物聯(lián)網(wǎng)。
思必馳是畢業(yè)于劍橋大學(xué)的高始興和俞凱等人于2007年在英國劍橋創(chuàng )立的,次年攜團隊回國,早期注重教育市場(chǎng),2009年研發(fā)出了全世界第一個(gè)中文發(fā)音作業(yè)系統。在語(yǔ)音識別技術(shù)上,就連胡郁也承認,在深度學(xué)習浪潮出來(lái)之前,劍橋的語(yǔ)音識別技術(shù)是領(lǐng)先的。俞凱的老板也是著(zhù)名的語(yǔ)音公司VCallQ的創(chuàng )始人,該公司主要依托俞凱老板實(shí)驗室的技術(shù)班底而成,俞凱本人在實(shí)驗室是主力之一。VCallQ在2016年賣(mài)給了蘋(píng)果,這是后話(huà)。
思必馳在2014年把教育業(yè)務(wù)剝離出去,一方面當然是因為資源在教育領(lǐng)域是至關(guān)重要的,科大訊飛此時(shí)與政府的緊密關(guān)系令其輕松拿到市場(chǎng)的大半壁江山,甚至是壟斷??拼笥嶏w教育事業(yè)群副總裁丁鵬曾就競爭優(yōu)勢問(wèn)題向媒體表示:就因為我能做全國的市場(chǎng),那么安徽就會(huì )給我最大的支持;如果我能做全球的市場(chǎng),那么國家就會(huì )給我最大的支持。
另一方面,高始興和俞凱等人意識到,在教育領(lǐng)域雖然很難與科大訊飛抗衡,而語(yǔ)音可發(fā)揮的天地還很廣闊,特別是有交互場(chǎng)景的領(lǐng)域,而此時(shí),語(yǔ)音識別開(kāi)始往語(yǔ)音交互走也成為思必馳團隊的一致認知。
認可語(yǔ)音識別會(huì )向語(yǔ)音交互走這一趨勢的還有阿里巴巴。
2014年這一年,阿里巴巴的語(yǔ)音部門(mén)IDST正式成立,即如今達摩院的前身,掌舵者為初敏。初敏被稱(chēng)為“木蘭之母”,其在微軟創(chuàng )建并領(lǐng)導語(yǔ)音合成研究小組研制出了第一個(gè)中英文雙語(yǔ)語(yǔ)音合成系統“木蘭”,這是當時(shí)微軟唯一一個(gè)完全放在中國運營(yíng)的業(yè)務(wù)。微軟曾經(jīng)在美國啟動(dòng)過(guò)語(yǔ)音合成相關(guān)技術(shù)的研究,但因成效不佳轉而選擇使用第三方的合成技術(shù)。正是由于初敏團隊效果喜人,微軟才決定自研。
左林右貍團隊拜訪(fǎng)初敏(中)
初敏在微軟做的“木蘭”,和科大訊飛當年獲得國家科技進(jìn)步二等獎的“KD漢語(yǔ)文語(yǔ)轉換系統”有異曲同工之妙。初敏在中科院聲學(xué)所讀的博士,師從著(zhù)名語(yǔ)言聲學(xué)研究專(zhuān)家呂士楠,和科大王仁華一樣,呂士楠也是參加863項目語(yǔ)音測評的???,在幾個(gè)項目的評比中和科大訊飛互有勝負;在上個(gè)世紀90年代,呂士楠在漢語(yǔ)語(yǔ)音合成中,首次提出用“基音同步波形疊加技術(shù)”合成漢語(yǔ),而王仁華在1993年得到863計劃的首筆資助時(shí)也正是在這個(gè)方向的研究打動(dòng)了專(zhuān)家組,才有了后來(lái)在1995年發(fā)布的KD系統。
按初敏的話(huà)說(shuō),呂士楠的學(xué)術(shù)范更濃,而王仁華則是一個(gè)更有商業(yè)意識的人,這也是科大訊飛技術(shù)從產(chǎn)品轉化做得比較好的原因。呂士楠和王仁華兩個(gè)團隊的交流曾經(jīng)非常密切,2000年科大訊飛拿到3000萬(wàn)元投資后,劉慶峰也拿了一筆錢(qián)出來(lái)與清華、聲學(xué)所做聯(lián)合研究,如今日科大訊飛的執行總裁胡郁,在當時(shí)就曾經(jīng)在聲學(xué)所呂士楠的實(shí)驗室蹲點(diǎn)學(xué)習過(guò)。
聲學(xué)所的孫金城老師曾經(jīng)與劉慶峰一起參加了1998年的863語(yǔ)音合成的比賽,那次比賽,劉慶峰是第一名,孫金城是第二名,比賽完后,劉慶峰找到孫金城,說(shuō)服孫金城與其合作,一起做語(yǔ)音合成,他們合作后的語(yǔ)音合成方案也成為中國最好的語(yǔ)音合成方案,劉慶峰請孫金城以顧問(wèn)的身份加入創(chuàng )始團隊,并送了孫金城兩個(gè)點(diǎn)的股份,這部分股份在上市后也有千分之五左右,孫金城據說(shuō)也是聲學(xué)所乃至整個(gè)北京聲學(xué)圈子的首富,身家最多的時(shí)候有四五億人民幣。
2009年,初敏受此時(shí)她的前上司今天阿里巴巴首席架構師王堅邀請,加入阿里。初敏從微軟去阿里,一開(kāi)始并非是奔著(zhù)語(yǔ)音去的——在微軟亞洲研究院開(kāi)發(fā)完“木蘭”系統的過(guò)程中,初敏注意可以接觸、收集的數據量迅速增長(cháng),如何對大規模數據進(jìn)行挖掘、分析和再利用成為了一個(gè)極富挑戰的研究難題。由于感覺(jué)自己把所有語(yǔ)音合成能玩的都玩得差不多了,2007年,初敏做了一個(gè)重要決定,從語(yǔ)音組轉到了以數據為中心的計算組,開(kāi)始了一段新的研究歷程,而初敏對云計算背后的大數據應用非常感興趣,于是王堅去了阿里云后,就跟著(zhù)王堅去了剛成立的阿里云。
2014年阿里正式成立語(yǔ)音部門(mén)IDST,初敏轉回語(yǔ)音方向,并開(kāi)始組建語(yǔ)音團隊(初敏在微軟亞研的舊同事鄢志杰就是她這個(gè)時(shí)候找來(lái)的),為Yun OS、支付寶、手機淘寶、釘釘等產(chǎn)品加入了語(yǔ)音交互能力。之后在2017年初敏在阿里萌生退意想換個(gè)環(huán)境,思必馳首席科學(xué)家俞凱聽(tīng)說(shuō)后,和創(chuàng )始人高始興三顧茅廬,最終說(shuō)動(dòng)初敏加入。
坊間曾經(jīng)認為,思必馳游說(shuō)初敏加入,看中的是初敏在阿里的背景,其實(shí)不然,思必馳與阿里合作的主要對口人是阿里語(yǔ)音的另一位女強人淺雪,初敏和淺雪在阿里語(yǔ)音體系里一時(shí)瑜亮,各成體系,也屢有紛爭,思必馳邀請初敏加入,更多是兩位創(chuàng )始人和初敏在語(yǔ)音產(chǎn)業(yè)發(fā)展理念上有諸多共通之處,比如都認為基于場(chǎng)景的語(yǔ)音交互會(huì )產(chǎn)生很多新的機會(huì )和孕育新的可能,都認為與高校實(shí)驗室的緊密合作會(huì )形成源源不斷的創(chuàng )新能力(思必馳與上海交大的合作是科技企業(yè)與高校緊密合作的又一典范)。
相比阿里巴巴和思必馳,科大訊飛要激進(jìn)不少,他們不僅僅認為語(yǔ)音識別會(huì )向語(yǔ)音交互走,更重要的還會(huì )向認知計算走,這也是他們發(fā)布訊飛超腦的原因所在。
通過(guò)訊飛超腦,科大訊飛形成縱橫戰略,科大訊飛將主要業(yè)務(wù)分為八大部分,從最新的財務(wù)報表中營(yíng)業(yè)額高低來(lái)劃分,包括教育領(lǐng)域、智慧城市、政法業(yè)務(wù)、開(kāi)放平臺及消費者、汽車(chē)、智能業(yè)務(wù)以及其他。其中與政府關(guān)系密切的教育、智慧城市、政法位居前三,而汽車(chē)上升勢頭最為迅猛。
當然,光靠領(lǐng)先的語(yǔ)音合成和語(yǔ)音識別技術(shù),訊飛超腦還難以名副其實(shí),訊飛超腦得整合包括人臉識別等技術(shù)提供給客戶(hù)。
這對科大訊飛不是什么難事情,2014年科大訊飛在A(yíng)股呼風(fēng)喚雨,幾次定增也得到熱捧,有了資金后,除了在全國各地開(kāi)設子公司,科大訊飛也開(kāi)始自己做投資??拼笥嶏w的投資體系還包括安徽省訊飛產(chǎn)業(yè)投資有限責任公司,以及安徽省信息產(chǎn)業(yè)投資控股有限責任公司。其中,前者為科大訊飛全資控股企業(yè),后者為國有控股的投資公司,科大訊飛作為出資方參與其中,而二者的董事長(cháng)均為原科大訊飛副總裁、董事會(huì )秘書(shū)徐景明。科大訊飛的這三家企業(yè)投資了近70家企業(yè),其中包括優(yōu)必選、商湯科技、寒武紀等獨角獸,分別是服務(wù)機器人、人臉識別、AI芯片等領(lǐng)域的翹楚,也在多方面支持科大訊飛的生態(tài)。
這些獨角獸中商湯科技與科大訊飛的聯(lián)系最為緊密。商湯科技的創(chuàng )始成員大多來(lái)自港中大多媒體實(shí)驗室湯曉鷗教授團隊,湯曉鷗本人也是創(chuàng )始人之一。同時(shí),湯曉鷗也是科大訊飛語(yǔ)音及語(yǔ)言信息處理國家工程實(shí)驗室技術(shù)委員會(huì )的副主任。
訊飛發(fā)布超腦計劃,與劉慶峰從來(lái)不甘于讓科大訊飛只是做一個(gè)技術(shù)提供商的企圖心暗合,更有Nuance的前車(chē)之鑒。早科大訊飛7年成立,如今全球語(yǔ)音市場(chǎng)最大占有者Nuance曾經(jīng)是各大巨頭友好的合作伙伴,蘋(píng)果的Siri、亞馬遜的Alexa早期都使用過(guò)其技術(shù),甚至科大訊飛早期是其中國代理商,如今各大巨頭均自主開(kāi)發(fā)自己的語(yǔ)音技術(shù),Nuance已被互聯(lián)網(wǎng)巨頭們拋棄,現只能專(zhuān)注于語(yǔ)音醫療領(lǐng)域偏安一隅,并且人才也被大量挖墻腳。
在中國,想只是靠提供技術(shù)而成為一家大企業(yè),更是妄談。這些年,科大訊飛也面臨類(lèi)似Nuance同樣的局面,曾經(jīng)的合作伙伴紛紛建立自己的語(yǔ)音團隊。而在醫療領(lǐng)域,國內還并未發(fā)展那么快,而通過(guò)政府資源獲取的教育市場(chǎng)也終究還是格局略小了些。
因此,科大訊飛從來(lái)沒(méi)放棄做C端產(chǎn)品。
2014年這一年年底,科大訊飛做出新的組織結構調整,拆分成三個(gè)事業(yè)部,消費者事業(yè)部赫然在列,劉慶峰的親密戰友胡郁又一次被推到前臺,擔任消費者事業(yè)部的負責人。
六
如前所言,語(yǔ)音的第二個(gè)高潮是iPhone掀起的,但就像當初PC時(shí)代一樣,Siri的后續發(fā)展并未達到預期,它只是作為附屬品而不是必需品而存在,于是大家開(kāi)始懷疑,是不是手機同樣并不是最好的語(yǔ)音交互設備。那么,用戶(hù)用語(yǔ)音交互的終端設備到底是什么呢?智能手表、音箱等一大批面向C端的硬件產(chǎn)品開(kāi)始粉墨登場(chǎng),各家開(kāi)始在嘗試,賭哪個(gè)形態(tài)的產(chǎn)品會(huì )成為移動(dòng)互聯(lián)網(wǎng)后下一個(gè)AIoT時(shí)代的開(kāi)啟者。
最早開(kāi)始這種嘗試的是出門(mén)問(wèn)問(wèn)。2012年回國創(chuàng )業(yè)時(shí),李志飛從擅長(cháng)的語(yǔ)音交互入手,為其他產(chǎn)品提供適配方案,在這一時(shí)期,出門(mén)問(wèn)問(wèn)做出了針對GoogleGlass和Android Wear的中文智能語(yǔ)音交互應用,然而這些讓出門(mén)問(wèn)問(wèn)頗為值得的技術(shù)方案只能用叫好不叫座來(lái)形容,無(wú)法讓普通用戶(hù)形成共鳴。
按李志飛接受左林右貍頻道采訪(fǎng)時(shí)所說(shuō)的,如果出門(mén)問(wèn)問(wèn)繼續做AI解決方案公司固然很難死掉,但好死不如賴(lài)活著(zhù)絕不是他想要的狀態(tài)。所以在創(chuàng )業(yè)兩年后,出門(mén)問(wèn)問(wèn)做了首次轉型,從純算法公司開(kāi)始做軟硬件結合,并發(fā)布全球首款中文智能手表操作系統TicWear,以替代國內功能不全的Google服務(wù);半年后,又從軟件切入硬件,推出智能手表TicWatch。李志飛和團隊沒(méi)有一個(gè)人懂硬件,正值諾基亞中國區大裁員,趕緊第一時(shí)間去搶了幾個(gè)硬件工程師。值得一提的是,2015年,谷歌投資了李志飛創(chuàng )辦的出門(mén)問(wèn)問(wèn),并達成戰略合作關(guān)系,采用出門(mén)問(wèn)問(wèn)為谷歌智能手表操作系統WearOS(原Android Wear)提供中文語(yǔ)音助手。
左林大叔&李志飛
從此出門(mén)問(wèn)問(wèn)一發(fā)不可收拾地走上了硬件的不歸路,從智能手表、汽車(chē)后視鏡、智能耳機,出門(mén)問(wèn)問(wèn)保持著(zhù)一年推出一個(gè)新產(chǎn)品系列的節奏,不斷探索人工智能語(yǔ)音技術(shù)更適合的消費級應用場(chǎng)景。
其中,2016年立項并持續預熱的出門(mén)問(wèn)問(wèn)的智能音箱曾經(jīng)被李志飛寄予厚望。也就是在2016年這一年,出門(mén)問(wèn)問(wèn)邀請到了2018年新晉IEEE Fellow 華人科學(xué)家黃美玉博士加入,幫助建立了MobvoiAI Lab,用三個(gè)月時(shí)間領(lǐng)導完成給臺灣遠傳電信的一整套本地化語(yǔ)音助手的開(kāi)發(fā)。黃美玉師從美國卡耐基梅隆大學(xué)的Raj Reddy(1994年圖靈獎獲得者),跟李開(kāi)復、洪小文、黃學(xué)東一個(gè)組,后加入微軟研究院,在微軟工作18年,參與bing機器翻譯以及cortana等產(chǎn)品研發(fā),是微軟亞洲研究院語(yǔ)音識別和語(yǔ)義分析研究的主導者之一。
整個(gè)智能音箱的故事則要從亞馬遜說(shuō)起。2014年11月7日,亞馬遜的先進(jìn)技術(shù)研發(fā)部門(mén)Lab 126突然丟出了一款智能音箱Echo。或許是前一款產(chǎn)品FirePhone敗走麥城的陰影尚未散去,這款脫胎于Lab 126 Project C的產(chǎn)品發(fā)布相當低調,不僅沒(méi)有舉辦一場(chǎng)單獨的發(fā)布會(huì ),甚至沒(méi)有去蹭在4天后的雙十一召開(kāi)的亞馬遜年度開(kāi)發(fā)者大會(huì )Re:Invent2014的場(chǎng)子。但就是這款當初未被寄予厚望的產(chǎn)品在2015年6月正式發(fā)售后,當年出貨量達250萬(wàn)臺。到2016年,Echo的出貨量更是達到520萬(wàn)臺,擊敗傳統音箱巨頭Sonos,取得在線(xiàn)音箱份額第一的霸主地位,占據了全球智能音箱88%的市場(chǎng)。
也就是2016年起,此前一直押注語(yǔ)音助手的各大巨頭也開(kāi)始反應過(guò)來(lái),紛紛推出智能音箱。2016年11月,谷歌推出GoogleHome,用了一個(gè)季度的時(shí)間,搶下全球智能音箱10%的份額;2017年6月,蘋(píng)果為Siri找到一個(gè)安放的軀體,推出智能音箱HomePod。
而在國內,由于軟銀、富士康以及阿里巴巴三大巨頭押注的服務(wù)機器人Pepper上市后的表現大大低于市場(chǎng)預期,加上市面上一大堆和音箱外形功能一樣卻在講機器人故事的產(chǎn)品并沒(méi)有出現爆款,因此國內巨頭對智能音箱的態(tài)度不是很積極,除了一直將亞馬遜作為對標對象的京東。
2015年3月,京東與科大訊飛成立合資公司靈隆,并在三個(gè)月后也就是2015年6月就推出智能音箱叮咚。
到2016年,Echo在市場(chǎng)上的驚艷表現讓更多國內互聯(lián)網(wǎng)公司加速在智能音箱市場(chǎng)的布局,并且用價(jià)格戰的方式讓這場(chǎng)競爭變成只有巨頭才有入場(chǎng)券的游戲。
盡管BAT、小米、360等大公司在2016年就開(kāi)始了智能音箱的項目討論和立項,但真正產(chǎn)品化的步伐要謹慎得多。2017年7月份,阿里和小米先后發(fā)布了第一款智能音箱天貓精靈和小愛(ài)同學(xué);2017年11月份,百度在自己的開(kāi)發(fā)者大會(huì )上通過(guò)9個(gè)月前全資收購的初創(chuàng )公司渡鴉科技推出智能音箱ravenH,4個(gè)月后又與其投資的企業(yè)小魚(yú)在家聯(lián)合發(fā)布小度在家智能視頻音箱,7個(gè)月后發(fā)布首款自有品牌智能音箱小度,與渡鴉音箱1699元、小度在家699元相比,這款音箱價(jià)格低至89元;騰訊的步伐直到18年4月才姍姍來(lái)遲,推出了智能音箱聽(tīng)聽(tīng)。
何曉冬(左)和俞棟
相比之下,推出最早的叮咚算是起了個(gè)大早趕了個(gè)晚集,在占據了先天優(yōu)勢的情況下并沒(méi)有帶來(lái)像Echo一樣的市場(chǎng)效應。這讓京東對科大訊飛產(chǎn)生了質(zhì)疑,于是開(kāi)始自己研發(fā)語(yǔ)音技術(shù),其中最標志性的動(dòng)作是招募美國微軟雷德蒙德研究院主任研究員、深度學(xué)習技術(shù)中心負責人何曉冬博士加入,何曉東博士也是鄧力團隊的核心成員之一(一段時(shí)間,何曉東與俞棟一起向鄧力匯報)。如今京東與科大訊飛的合資公司靈隆已宛若空殼,CEO魏強也于2018年11月初低調離職。當然,這并不意味著(zhù)京東放棄了智能音箱的市場(chǎng),而是會(huì )獨立研發(fā)。就在2018年12月4日,京東召開(kāi)了IOT戰略發(fā)布會(huì ),發(fā)布兩款智能耳機、兩款智能音箱,以及智能家居套裝,語(yǔ)音交互完全由何曉冬團隊研發(fā)。
也就是說(shuō),在智能音箱這個(gè)事情上,科大訊飛起了個(gè)大早,趕了個(gè)晚集。這里面原因很多,合資公司這樣的機制很難成事有其客觀(guān)原因,但更多還是在于ToC這個(gè)事情,2015-2016年的科大訊飛還沒(méi)有準備好,也沒(méi)有拼刺刀的心理建設。
在智能音箱這個(gè)市場(chǎng)上,2016年也有很多新生力量加入,其中最引人注目的是Misa。
2016年這一年,離開(kāi)阿里兩年后的Misa發(fā)布了蛋形機器人Rokid,殺入智能音箱這個(gè)江湖。Rokid可謂是含著(zhù)金鑰匙而生的,聯(lián)合創(chuàng )始人是金山的前CFO,天使投資人里有Misa的伯克利校友91前CEO JOE,有剛從阿里準備離職去IDG的樓軍,有他在阿里的老上級吳泳銘,還有線(xiàn)性資本的王淮。
Misa(C位)和團隊
Rokid 一亮相就得到小圈子的廣泛好評,不論產(chǎn)品設計和還是場(chǎng)景的考量都很見(jiàn)功夫,當然還讓人吐槽的是它的價(jià)格,但即便如此,1399的價(jià)格Rokid居然能出掉六位數的貨,還是讓人驚嘆的。
有意思的是,2018年, Rokid不再對外公布自己的音箱出貨量,公司的重點(diǎn)也轉變?yōu)榻o其他音箱公司提供交互等方案提供上來(lái),Misa用了賦能一詞描述他在智能音箱這個(gè)江湖的角色和定位。
Misa這樣的超級產(chǎn)品經(jīng)理在音箱這個(gè)產(chǎn)品上的轉身和退讓也是中國智能音箱市場(chǎng)的一個(gè)真相,那就是在大公司戰略前面,產(chǎn)品很重要,但不是最重要的事情。
左林大叔&Misa
智能音箱大戰的邏輯在于,在語(yǔ)音的應用場(chǎng)景中,智能音箱所代表的家居場(chǎng)景是僅次于通訊的第二大市場(chǎng),如果再進(jìn)一步看,無(wú)論是可穿戴設備、機器人,還是智能音箱,巨頭爭奪的是背后的平臺控制權,在人工智能迅速發(fā)展的大背景下,語(yǔ)音平臺有機會(huì )成為物聯(lián)網(wǎng)時(shí)代下新的“操作系統”,這也是為何百度阿里以及小米在這個(gè)市場(chǎng)上血戰到底的原因所在。
在這樣的一個(gè)市場(chǎng)里,其實(shí)就是寡頭的游戲。
七
左林右貍頻道在采訪(fǎng)中被告知,在智能音箱以及更多的消費類(lèi)產(chǎn)品市場(chǎng)上,科大訊飛的角色多少有些擰不清楚,一方面是裁判員,是很多公司的技術(shù)提供商,另一方面是運動(dòng)員,跑步下場(chǎng)。這種既做裁判員又做運動(dòng)員的雙重身份讓其進(jìn)退維谷。
而隨著(zhù)人工智能的爆發(fā)下,大企業(yè)紛紛自研語(yǔ)音技術(shù),加上初創(chuàng )企業(yè)的出現,語(yǔ)音方案的選擇越來(lái)越多,科大訊飛開(kāi)始逐步丟失了在價(jià)格和服務(wù)上的優(yōu)勢。
在價(jià)格上,智能音箱市場(chǎng)競爭日趨激烈,目前出貨量大的都是走低成本產(chǎn)品市場(chǎng),而科大訊飛的語(yǔ)音方案價(jià)格并不低,比如小米在做智能音箱之初找了科大訊飛,但科大訊飛要求一個(gè)音箱給10塊錢(qián)的技術(shù)授權費,這對于小米來(lái)說(shuō)成本太高了,而百度的服務(wù)幾乎是免費;
在服務(wù)上,科大訊飛希望做生態(tài),提供的都是通用方案,而不同的產(chǎn)品有不同的用戶(hù)人群,比如音箱目前核心功能是播放音樂(lè ),那么為用戶(hù)提供好的音樂(lè )搜索服務(wù)是至關(guān)重要的,而兒童機器人注重教育,為不同年齡層不同需求的小孩兒提供優(yōu)質(zhì)的人機交互尤為關(guān)鍵。左林右貍頻道接觸過(guò)不少做這類(lèi)產(chǎn)品的公司,大多數都從最開(kāi)始選擇科大訊飛方案到如今做了其它選擇。
科大訊飛就像一棵樹(shù),以語(yǔ)音技術(shù)為根,在各個(gè)領(lǐng)域開(kāi)枝散葉。語(yǔ)音的應用場(chǎng)景越多,對語(yǔ)音的技術(shù)要求也越細分,也給了初創(chuàng )企業(yè)機會(huì ),聲智科技便是其一。
2016年,在聲學(xué)所待了十幾年的陳孝良在看到人工智能的爆發(fā)和市場(chǎng)前景后下定決心出來(lái)創(chuàng )業(yè)。陳孝良清楚如今語(yǔ)音交互平臺方面巨頭的機會(huì )更大一些,因此他選擇了以語(yǔ)音交互的底層方案作為突破口,著(zhù)重解決遠場(chǎng)語(yǔ)音交互的前端標準化和通用性問(wèn)題,也獲得了與巨頭合作的機會(huì )。如今,BATMH等均為聲智科技合作對象,其中百度還成為其投資方。2018年年底最新的消息是聲智科技獲得新的一輪融資,可喜可賀。
陳孝良在中科院聲學(xué)所匯報工作
搶科大訊飛飯吃的還有ROOBO。
ROOBO創(chuàng )始人劉穎博并非做技術(shù)出身,他畢業(yè)于北京交通大學(xué)會(huì )計專(zhuān)業(yè)。畢業(yè)后劉穎博創(chuàng )業(yè)做過(guò)一些互聯(lián)網(wǎng)項目,包括Koomail、食神搖搖。2014年,當劉穎博想再度創(chuàng )業(yè)時(shí),他發(fā)現當初只要是個(gè)APP就有人投的時(shí)代已經(jīng)過(guò)去,只能做硬件了。他找來(lái)了兩個(gè)朋友:前360手機助手、搜狗手機輸入法創(chuàng )始人尹方鳴,前360安全衛士負責人雷宇,幾個(gè)互聯(lián)網(wǎng)人開(kāi)始做硬件。
ROOBO的定位是人工智能解決方案。最開(kāi)始劉穎博沒(méi)想自己做硬件,他連模組是什么都不懂。為了驗證方案,ROOBO做了機器人布丁,一開(kāi)始經(jīng)人介紹他找到深圳一家做供應鏈的公司老板,想讓對方負責ROOBO所有的供應鏈事項,但對方不認為一群互聯(lián)網(wǎng)人能做什么硬件,沒(méi)答應。無(wú)奈之下,劉穎博只能自己組建團隊做硬件,從華為挖了一批人。如今深圳的硬件團隊已經(jīng)有近百人。
劉穎博帶隊殺回深圳
2018年7月,ROOBO在深圳舉辦了一場(chǎng)發(fā)布會(huì ),會(huì )上劉穎博宣布使用ROOBO平臺的機器人出貨量已經(jīng)達500萬(wàn)臺,提前完成了一年的出貨目標。對于這個(gè)結果,劉穎博也是沒(méi)想到的,他覺(jué)得很大原因是因為當初被迫做硬件,從而讓團隊對于硬件的理解能更加深厚。
當然,內心流淌著(zhù)互聯(lián)網(wǎng)基因的劉穎博還是更喜歡研究軟件部門(mén),他希望在機器人交互上能有更多的摸索和玩法。而因為做機器人人機交互解決方案,也讓ROOBO成為科大訊飛的競爭對手之一。有意思的是,ROOBO初創(chuàng )的時(shí)候曾經(jīng)找科大訊飛要過(guò)融資,還進(jìn)入過(guò)科大訊飛多輪投委會(huì ),劉穎博也飛到合肥去朝圣過(guò)劉慶峰,但雙方最終沒(méi)有走到一起,一說(shuō)是ROOBO要的金額過(guò)多,超過(guò)了科大訊飛的射程,另一說(shuō)是科大訊飛當時(shí)在二選一中選了優(yōu)必選。
從左至右為雷宇、尹方鳴、胡郁、劉穎博、于繼棟(科大訊飛云平臺事業(yè)部總經(jīng)理)
在科大訊飛起家的語(yǔ)音合成TTS領(lǐng)域,也遇到了獵戶(hù)的強力阻擊。
2016年9月,傅盛以個(gè)人身份投資成立了獵戶(hù)星空,2017年5月,傅盛推動(dòng)獵豹給獵戶(hù)星空投了4000萬(wàn)美金,把自己名下的大部分股份轉給了獵豹,對應換來(lái)了傅盛在獵豹的更多表決權,同時(shí)獵戶(hù)星空也演變成為獵豹的控股子公司,傅盛借此全面掌控了獵戶(hù)星空。
2018年3月,傅盛為獵戶(hù)星空在水立方舉行了一場(chǎng)盛大發(fā)布會(huì ),推出3款服務(wù)機器人、小豹音箱以及機械臂,并發(fā)布自主研發(fā)獵戶(hù)機器人平臺Orion OS。
傅盛成立獵戶(hù)星空,是想奔著(zhù)做機器人去的,由此積累了諸多技術(shù),但最多的是語(yǔ)音合成相關(guān)的技術(shù)積累,獵戶(hù)先后為喜馬拉雅的小雅、小米的小愛(ài)同學(xué)、美的的小美以及華為音箱等多款智能音箱提供語(yǔ)音合成技術(shù),按照傅盛的說(shuō)法,市場(chǎng)上30%的智能音箱都在用獵戶(hù)的TTS服務(wù),刨除BAT都在用自己的TTS服務(wù)后,在這個(gè)細分市場(chǎng)上,獵戶(hù)確實(shí)壓科大訊飛一頭。在翻譯棒這個(gè)市場(chǎng)上,獵豹翻譯筆也與科大訊飛打起誰(shuí)是第一的口水戰,還有搜狗以及準兒等多家公司,雖然量都不大,但這個(gè)領(lǐng)域木有巨頭進(jìn)入,更多是拼產(chǎn)品和服務(wù),還算良性。
傅盛&左林大叔
更多語(yǔ)音公司在汽車(chē)這個(gè)領(lǐng)域與科大訊飛短兵相接。
2017年4月,大眾汽車(chē)集團(中國)宣布與出門(mén)問(wèn)問(wèn)成立一家合資公司,其中大眾汽車(chē)集團(中國)將投資1.8億美金,用于支持雙方在智能出行領(lǐng)域的業(yè)務(wù)合作以及出門(mén)問(wèn)問(wèn)未來(lái)的發(fā)展。
在智能可穿戴、智能家居硬件產(chǎn)品之外,車(chē)載設備也是出門(mén)問(wèn)問(wèn)將人工智能應用落地的場(chǎng)景之一。2016年11月22 日,出門(mén)問(wèn)問(wèn)舉行以“智駕新鏡界”為主題的冬季新品發(fā)布會(huì ),發(fā)布車(chē)載機器人問(wèn)問(wèn)魔鏡TicMirror和ADAS高級駕駛輔助系統問(wèn)問(wèn)魔眼TicEye。在與大眾汽車(chē)集團(中國)成立合資公司后,這些車(chē)載產(chǎn)品將由合資公司進(jìn)行后續的開(kāi)發(fā)和運營(yíng)。2018年,出門(mén)問(wèn)問(wèn)僅用一年通過(guò)了車(chē)規級前裝語(yǔ)音測試,躋身車(chē)載前裝語(yǔ)音交互第一梯隊。而這些技術(shù)成果已落地出門(mén)問(wèn)問(wèn)與大眾旗下的合資公司。目前,合資公司提供的語(yǔ)音與車(chē)內互聯(lián)系統已被納入江淮大眾的一款新能源電動(dòng)汽車(chē)前裝中,合資公司還與賽德西威聯(lián)合打造并發(fā)布了智能車(chē)機產(chǎn)品。
2018年9月19日,云知聲與吉利集團旗下億咖通科技(ECARX)宣布共同出資成立一家合資公司,開(kāi)展面向汽車(chē)前裝市場(chǎng)的車(chē)規級AI芯片研發(fā),合資公司落地合肥高新區。
思必馳目前主要是靠車(chē)蘿卜搶占后裝市場(chǎng),在前裝市場(chǎng)則選擇了奇點(diǎn)汽車(chē)、小鵬汽車(chē)等互聯(lián)網(wǎng)汽車(chē)品牌進(jìn)行合作。阿里是思必馳的投資方,這樣的布局也在情理之中。
關(guān)于市場(chǎng)占有率,思必馳和云知聲也都宣稱(chēng)自己在后裝市場(chǎng)占有70%。由于重點(diǎn)業(yè)務(wù)的高度重疊,雙方多次在朋友圈掐架。
云知聲和思必馳另一個(gè)步伐一致的是AI芯片。這一次云知聲要搶先一步,在2018年5月就發(fā)布了面向物聯(lián)網(wǎng)的AI系列芯片UniOne以及第一代芯片“雨燕”。思必馳則是在2018年6月宣布融資消息時(shí)透露AI語(yǔ)音芯片將在下半年流片。
思必馳在2018年12月13日公布要開(kāi)芯片發(fā)布會(huì ),云知聲在2018年12月21日公布要開(kāi)芯片發(fā)布會(huì )。2019年1月4號思必馳開(kāi)發(fā)布會(huì ),而云知聲在1月2日搶先召開(kāi)了發(fā)布會(huì ),這一動(dòng)作挺耐人尋味的,難怪思必馳的市場(chǎng)人員在和左林右貍頻道聊天時(shí)不禁感慨,“挺心疼他們的市場(chǎng)人員的”。
AI芯片被認為是搶占市場(chǎng)的關(guān)鍵。除了云知聲和思必馳,出門(mén)問(wèn)問(wèn)也在2018年5月發(fā)布了已經(jīng)量產(chǎn)的AI語(yǔ)音芯片模組“問(wèn)芯”,Rokid也有自己的語(yǔ)音芯片。
黃偉&左林大叔
而據左林右貍頻道獲悉,中科信利也在計劃與外部企業(yè)合作推出AI芯片。中科信利面臨著(zhù)科大訊飛同樣的問(wèn)題,隨著(zhù)BAT等企業(yè)都組建自己的語(yǔ)音實(shí)驗室,漸漸失去了技術(shù)優(yōu)勢,目前業(yè)務(wù)還是以國家信息安全以及客服為主。中科信利聯(lián)合創(chuàng )始人趙慶衛向左林右貍頻道表示,目前他們也在計劃引入外部資本,將企業(yè)資本化從而尋求長(cháng)期發(fā)展。
科大訊飛倒很決絕的不做AI芯片,這很大原因在于,科大訊飛的ToB服務(wù)更多是高舉高打,而不像思必馳云知聲這樣要能提供幫助客戶(hù)能解決問(wèn)題的從云到端再到芯片模組的一整套解決方案。
在車(chē)載市場(chǎng)科大訊飛動(dòng)得也很早,2013年,在奔馳公司組織的全球中文語(yǔ)音識別系統測試中科大訊飛榮獲第一的成績(jì),也成為科大訊飛進(jìn)軍車(chē)載市場(chǎng)的契機。
如今,科大訊飛在汽車(chē)領(lǐng)域的產(chǎn)品包括三種:車(chē)載智能語(yǔ)音助手小飛魚(yú)、向車(chē)機供應商提供的語(yǔ)音技術(shù)解決方案,直接向車(chē)企提供整個(gè)車(chē)機系統。目前在第二種產(chǎn)品即后裝產(chǎn)品的落地上,科大訊飛的語(yǔ)音技術(shù)在200多款車(chē)型累計1000萬(wàn)輛車(chē)上應用。但在第三種的前裝市場(chǎng)上,目前并未看到科大訊飛比較好的成績(jì)。不過(guò),科大訊飛也在汽車(chē)領(lǐng)域投入了400人,明顯也是相當卯足了勁。有意思的是,科大訊飛總裁胡郁在接受左林右貍頻道采訪(fǎng)時(shí)表示稱(chēng),科大訊飛在整個(gè)車(chē)機語(yǔ)音市場(chǎng)占80%。
好吧,肯定有人在說(shuō)謊,只是誰(shuí)是長(cháng)鼻子的匹諾曹呢。
語(yǔ)音說(shuō)到底是一種交互方式,就像Dos時(shí)代的鍵盤(pán)、Windows時(shí)代的鼠標、iPhone時(shí)代的觸摸屏,語(yǔ)音會(huì )不會(huì )成為下一代人機交互的方式。誰(shuí)也不知道答案,但這些人都堅信不疑,他們都期待開(kāi)創(chuàng )一個(gè)新時(shí)代。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
