騰訊AI翻譯首次亮相博鰲論壇,只證明了這一件事……
不管是技術(shù)層面,還是訓練數據,當前的AI翻譯距離取代人類(lèi)還有好一段距離。
“一帶一路”=“一條腰帶和一條路”?
4月9日下午,“騰訊同傳”在博鰲論壇現場(chǎng)上鬧了一個(gè)大烏龍。
這是博鰲論壇首次采用AI同聲傳譯技術(shù),作為頭一份的“騰訊同傳”竟然還出現這種離譜的翻譯錯誤。
另外,從網(wǎng)上一些上傳的現場(chǎng)翻譯圖片來(lái)看,一些錯誤簡(jiǎn)直令人不忍直視:
按照官方所稱(chēng),上面的錯誤簡(jiǎn)稱(chēng)“大面積單詞無(wú)意義重復、大小寫(xiě)及字符混亂”。
首次亮相結果鬧烏龍,說(shuō)好的取代人類(lèi)呢?
在博鰲論壇現場(chǎng),基于自研的NMT(神經(jīng)網(wǎng)絡(luò )機器翻譯)、語(yǔ)音識別等技術(shù),“騰訊同傳”會(huì )實(shí)時(shí)識別、翻譯各國嘉賓的演講內容,并同時(shí)以中英雙語(yǔ)的字幕形式進(jìn)行投屏展示。另外,觀(guān)眾還可利用微信小程序對嘉賓演講的雙語(yǔ)同傳內容進(jìn)行回看、收聽(tīng)和記錄。
從提供的服務(wù)內容來(lái)看,騰訊的同聲傳譯聽(tīng)起來(lái)還是不錯的。然而,從上面的錯誤來(lái)看,體驗有些糟糕呢。
對此,也有網(wǎng)友也進(jìn)行了調侃:
對于此次烏龍,騰訊官方也沒(méi)有試圖遮掩,并針對圖片中“大面積單詞無(wú)意義重復、大小寫(xiě)及字符混亂”的錯誤給出了解釋。
譬如中英雙語(yǔ)切換頻率的問(wèn)題,官方解釋?zhuān)?/p>
當聲源在兩種語(yǔ)言之間不斷轉換時(shí),后臺中、英文識別引擎就會(huì )同時(shí)開(kāi)始工作,這會(huì )導致兩種識別引擎互相“掐架”,而翻譯結果卻只能選擇一種語(yǔ)言進(jìn)行輸出,再加上對嘉賓每個(gè)語(yǔ)氣詞也做了精準的啊啊啊翻譯,導致引發(fā)錯誤。
又比如“for”的問(wèn)題,官方稱(chēng):
出現這種情況主要是包括神經(jīng)網(wǎng)絡(luò )機器翻譯在內的深度學(xué)習算法,在原理上或多或少都有一定不確定性,在特定的情況下有一定的概率引發(fā)翻譯偏差。今天的嘉賓演講內容中包含“for for for for”、 ”that’s that’s that”等重復內容,而翻譯引擎不巧放大了這個(gè)重復,導致了翻譯結果出現錯誤。
AI同聲傳譯的玩家不在少數,鬧烏龍的也不止騰訊一家
目前,包括騰訊在內,涉及AI同聲傳譯市場(chǎng)的玩家也不在少數,比如科大訊飛、搜狗、百度等公司。
在市場(chǎng)的玩法上,他們的套路基本可以分為兩種,一類(lèi)是以翻譯APP、API接口形式存在的軟件產(chǎn)品,譬如此次騰訊參加博鰲論壇的產(chǎn)品;另一類(lèi)則是AI同聲傳譯硬件產(chǎn)品,最為典型的代表就是科大訊飛的“曉譯翻譯機”,以及搜狗的“搜狗旅行翻譯寶”。
從網(wǎng)上的一些用戶(hù)體驗來(lái)看,再結合此次騰訊同聲傳譯的情況,我們只能說(shuō),會(huì )鬧烏龍的不只是騰訊一家。
以科大訊飛的曉譯翻譯機為例,有網(wǎng)友以幾句英語(yǔ)教學(xué)的錄音來(lái)進(jìn)行測試,如下:
According to our records, a room for two guests was booked under your name.
谷歌:根據我們的記錄,有兩位客人的房間是以您的名義預定的。
訊飛翻譯機:根據我們的房間記錄,兩位客人,你們的名字都是什么?
Today we have grilled tuna and New York strip steak served with creamy Italian herb sauce.
谷歌:今天我們有烤金槍魚(yú)紐約牛排配奶油意大利香草醬。
訊飛翻譯機:吉姆去紐約的牛排,配有干凈的意大利香草醬 / 蒂姆已經(jīng)得到了一份紐約的牛排,用來(lái)清潔意大利的泥土沙司。
又比如搜狗的旅行翻譯寶,在正常的翻譯過(guò)程中,其也是偶有錯誤,而在對話(huà)內容較為復雜,或者語(yǔ)速過(guò)快等場(chǎng)景下,它的語(yǔ)音識別也會(huì )出現問(wèn)題,之后的AI翻譯自然是無(wú)法理解。又比如阿里巴巴的AI系統,此前的一場(chǎng)云棲大會(huì )中,該系統直接將“nationally”翻譯成了“男生弄亂”,讓演講者馬云爸爸在現場(chǎng)呆愣了5秒。
最后:AI翻譯還處于初期發(fā)展階段,想要取代人類(lèi)還很早
當前,國外的谷歌、微軟,國內的BAT、科大訊飛、搜狗等公司均在加緊布局AI翻譯市場(chǎng),發(fā)布各類(lèi)軟硬件產(chǎn)品。在技術(shù)層面,NMT是多個(gè)公司在A(yíng)I翻譯產(chǎn)品中所采用的技術(shù),其能夠模仿人腦神經(jīng)思考的模式進(jìn)行翻譯。不過(guò),騰訊方面此次的回應則表明,技術(shù)依舊存在不確定性的。
不僅僅是技術(shù),AI翻譯的訓練數據也跟不上了。在一些AI速記的應用場(chǎng)景中,我們能夠看見(jiàn),為了保證現場(chǎng)實(shí)時(shí)速記的準確率,工作人員一般都會(huì )提前用大量針對性數據來(lái)對系統進(jìn)行訓練。
比如此次鬧出烏龍的騰訊,在備戰期間,“騰訊同傳”也學(xué)習了該論壇過(guò)往數百份演講稿。然而,從現實(shí)情況來(lái)看,訓練的數據依舊是不夠的,畢竟連“一帶一路”這一固定詞匯都能翻譯錯誤。
遙想此前,包括騰訊在內,在發(fā)布AI翻譯產(chǎn)品的時(shí)候都以“替代人類(lèi)翻譯員”為自己的標語(yǔ)。不過(guò),從現實(shí)情況來(lái)看,技術(shù)依舊存在不確定性、數據欠缺。這只能證明一件事,AI翻譯想要取代人類(lèi)翻譯員,還有一段路要走。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
