微軟Azure云服務(wù):可通過(guò)學(xué)習掌握人類(lèi)情感密碼

鎂客 10年前 (2015-11-13)

以后能夠更愉快的和Cortana美女對話(huà)了?

想象一下,有這樣一種服務(wù),在你的房子煙霧報警器響起時(shí),能幫忙屋里的呼救聲傳達出去;它能記得住每個(gè)經(jīng)過(guò)房子周?chē)娜?;并且通過(guò)識別你的聲音就能為你開(kāi)門(mén),甚至識別出你的情緒變化。是不是覺(jué)得不可思議?去年5月在Microsoft's Build的開(kāi)發(fā)者會(huì )議中,微軟介紹了正在牛津大學(xué)開(kāi)發(fā)中的Azure項目:一組基于云計算的機器學(xué)習服務(wù)。

這些服務(wù)能執行一系列的圖像處理和識別任務(wù),提供語(yǔ)音合成和語(yǔ)音識別服務(wù),甚至是將自然語(yǔ)言轉換成計算機命令的應用程序。服務(wù)同樣可應用于微軟的Cortana私人助理和Skype的翻譯服務(wù),這意味著(zhù)它同時(shí)能識別六種語(yǔ)言并進(jìn)行實(shí)時(shí)通話(huà)(包括50種語(yǔ)言的文字信息)。五月的一個(gè)周一,微軟升級了面部識別系統API,并借由Movmber基金會(huì )推出了一個(gè)“11月不刮胡子”籌款活動(dòng):參與者通過(guò)面部毛發(fā)識別API,可以識別是否有胡子,胡子增長(cháng)情況并為其分配一個(gè)評級(以及添加一個(gè)小胡子“標簽”的面部毛發(fā)的事件窗)。

同樣的,微軟為這些基于網(wǎng)絡(luò )請求的RESTful接口添加額外的聲音,文本和圖像服務(wù),包括一系列新將人工智能應用于處理視頻內容等全新體驗。接下來(lái)的某個(gè)周二晚上,來(lái)自微軟劍橋研究院的負責人Chris Bishop,以及微軟技術(shù)和研究部門(mén)高級項目經(jīng)理Ryan Galgon共同在倫敦的微軟未來(lái)規劃會(huì )議上,作為該會(huì )議的主題之一,就這些新這些服務(wù)做了簡(jiǎn)單介紹。新的API細節也將于今天早上在一篇博客文章中公布。它們包括:

情感識別:這是Azure的基礎服務(wù),可用于一套新的公共測試服務(wù),可以處理圖像,收集面部圖像用以描繪不同的人類(lèi)情感。這項服務(wù)可以將情感分類(lèi)顯示在一個(gè)圖像上。Azure可以使用元數據應用于圖像識別人們的快樂(lè )或者悲傷情緒,也可以用于收集特定事件數據對人們造成的反應。

拼寫(xiě)檢查:基于Web API的拼寫(xiě)檢查器,可以集成到任何移動(dòng)網(wǎng)絡(luò )或云應用中檢查單詞拼寫(xiě)錯誤,但也有它做不到的地方,比如當字母大寫(xiě)時(shí),或上下文銜接中的拼寫(xiě)錯誤等問(wèn)題。Galgon介紹,因為在云端,無(wú)法即時(shí)更新,所以不能根據拼寫(xiě)的變化或使用場(chǎng)景而改善其拼寫(xiě)規則。“例如,直到最近,拼寫(xiě)檢查器還會(huì )認為“Lyft”是拼寫(xiě)錯誤的“lift”,Galgon解釋道。拼寫(xiě)檢查服務(wù)項目可以根據上下文以確定恰當拼寫(xiě)的實(shí)現。

視頻處理:根據技術(shù)開(kāi)發(fā)Microsoft's Hyperlapse視頻處理工具,今年年底前該服務(wù)可以上線(xiàn)使用。它可以處理大量的視頻,在視頻中識別獨特的臉和追蹤它們。它還可以在視頻中檢測運動(dòng)的人或對象本身。使用這些檢測功能,機器學(xué)習算法可以編輯視頻,基于一組參數執行穩定圖像操作,并通過(guò)視頻剪輯去除過(guò)多的攝影機運動(dòng)。

語(yǔ)音識別:Azure已經(jīng)能相當熟練的將語(yǔ)音轉換為文本信息,但是新的語(yǔ)音識別功能(也在今年年底)將允許應用程序執行一個(gè)身份檢查功能:是誰(shuí)在說(shuō)話(huà)。Galgon表示,語(yǔ)音識別不是為了替代身份驗證工具。但它可以用來(lái)檢測用應用程序的變化,增加額外的身份驗證措施,這項應用需求更少,安全要求也更嚴格,它可以用來(lái)識別具體用戶(hù),例如,識別人在一次電話(huà)會(huì )議中講話(huà)或視頻的字幕。

自定義情報識別服務(wù)(CRIS):一個(gè)可創(chuàng )建私密數據的工具,CRIS允許開(kāi)發(fā)人員構建語(yǔ)音識別服務(wù)的應用程序以滿(mǎn)足更多要求,無(wú)論它們在何處被使用或是誰(shuí)在使用它們。Galgon表示,例如,CRIS服務(wù)可以用來(lái)處理語(yǔ)音,即使在體育館廣場(chǎng),有很大的回聲巷口空間或有球迷歡呼的背景噪音等環(huán)境下依然可以識別出特定的語(yǔ)音信息。在另一個(gè)實(shí)例運用中,CRIS在教室中正確識別出了一個(gè)五歲孩子的語(yǔ)音,并將它轉換為零差錯文本。

除了面部毛發(fā)特性,微軟也做了額外的調整。性別和年齡檢測功能已得到改進(jìn),并將“微笑預測”工具添加到面部圖像應用程序接口。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到