自然語(yǔ)言處理,計算機與人類(lèi)“談心”的關(guān)鍵
自然語(yǔ)言處理不達標,機器人就不能真正了解人類(lèi),智能服務(wù)也就不能做到完美。
2011年,日本多個(gè)機構發(fā)起的一項機器人項目,以東京大學(xué)入學(xué)考試難度為目標,以檢驗人工智能可在多大程度上模擬人類(lèi)思考以及解決問(wèn)題的能力。在去年和今年的考試中,機器人“Torobo-kun”分別獲得了511分和525分,總分為950分。照著(zhù)當前的成績(jì),Torobo-kun有80%的可能被512所私立大學(xué)和23所國立大學(xué)和公立大學(xué)錄取,可惜的是,離東京大學(xué)至少獲得 80% 分數的要求還差得很遠。
根據對比,在兩次考試中,Torobo-kun在數學(xué)和物理方面有了明顯的進(jìn)步,而英語(yǔ)和國語(yǔ)的成績(jì)還是一團糟。在鎂客君看來(lái),相比于英語(yǔ)和國語(yǔ),數學(xué)和物理對自然語(yǔ)言的理解要寬松一點(diǎn),所以,對于機器人在這兩門(mén)功課的進(jìn)步,其實(shí)并沒(méi)有多大的驚喜,而要想機器人能夠考上東京大學(xué),主要還是看英語(yǔ)和國文等需要深透理解的科目,而在這其中,自然語(yǔ)言處理是關(guān)鍵。
什么是自然語(yǔ)言處理?
自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP),還有人稱(chēng)之為自然語(yǔ)言理解(Natural Language Understanding ,簡(jiǎn)稱(chēng)NLU)。對此,鎂客君覺(jué)得這兩者有著(zhù)一個(gè)根本的區別,自然語(yǔ)言處理只是對語(yǔ)言的一種字面意思的處理和理解,而真正的“理解”是一個(gè)很難講明的東西,正如“一千個(gè)讀者就有一千個(gè)哈姆雷特”一般,當讀完整本書(shū),我們會(huì )用一些詞去形容哈姆雷特,只是自然語(yǔ)言的處理并不能達到這個(gè)程度。因而,在自然語(yǔ)言的相關(guān)技術(shù)之上,鎂客君更傾向于稱(chēng)之為自然語(yǔ)言處理。
在人工智能領(lǐng)域,自然語(yǔ)言處理一個(gè)重要方向。簡(jiǎn)單來(lái)講,自然語(yǔ)言處理就是用計算機來(lái)處理、理解以及運用人類(lèi)語(yǔ)言(如中文、英文等),它屬于人工智能的一個(gè)分支,是計算機科學(xué)與語(yǔ)言學(xué)的交叉學(xué)科。
一般來(lái)講,自然語(yǔ)言處理得步驟主要分為6步:
1、獲取原始文本;
2、對文本進(jìn)行預處理;
3、分詞:將文章按詞組分開(kāi)。該步驟只針對中文,西方字幕語(yǔ)言已經(jīng)用空格做好了分詞;
4、詞法分析:對于英文,有詞頭、詞根、詞尾的拆分,名詞、動(dòng)詞、形容詞、副詞、介詞的定性,多種詞意的選擇。比如DIAMOND,有菱形、棒球場(chǎng)、鉆石3個(gè)含義,要根據應用選擇正確的意思;
5、語(yǔ)法分析:通過(guò)語(yǔ)法樹(shù)或其他算法,分析主語(yǔ)、謂語(yǔ)、賓語(yǔ)、定語(yǔ)、狀語(yǔ)、補語(yǔ)等句子元素;
6、語(yǔ)義分析:通過(guò)選擇詞的正確含義,在正確句法的指導下,將句子的正確含義表達出來(lái)。
NLP主要的應用方向
從應用角度看,NLP的前景是相當的廣泛,尤其是現在信息泛濫的時(shí)代,比如:
文本分類(lèi)和聚類(lèi):主要是將文本按照關(guān)鍵字詞做出統計,建造一個(gè)索引庫,這樣當有關(guān)鍵字詞查詢(xún)時(shí),可以根據索引庫快速地找到需要的內容;
信息抽取:直接從自然語(yǔ)言文本中抽取事實(shí)信息,一種更有力的信息獲取工具;
機器翻譯:顧名思義,就是語(yǔ)言之間的轉換,典型案例有百度翻譯、谷歌翻譯;
信息檢索和過(guò)濾:在大流量的信息中尋找關(guān)鍵詞,屬于網(wǎng)絡(luò )瞬時(shí)檢查的應用范疇;
語(yǔ)音識別及文語(yǔ)轉換:將人類(lèi)的語(yǔ)音轉換為文字,并理解其中的含義,諸如亞馬遜Alexa或一些家居機器人。
此外,除了這些,手寫(xiě)體和印刷體字符識別、輿情分析和觀(guān)點(diǎn)挖掘等也屬于自然語(yǔ)言處理的應用范疇。
NLP研究進(jìn)展的難處
目前,專(zhuān)注于自然語(yǔ)言處理的公司和團隊也是相當多的,大的有谷歌、蘋(píng)果、百度等等,小的有斯坦福大學(xué)自然語(yǔ)言處理研究小組、卡內基梅隆大學(xué)語(yǔ)言技術(shù)研究院和中科院計算機所自然語(yǔ)言處理研究組等等。不過(guò),雖然參與者眾多,但在前進(jìn)的過(guò)程中,依然有一些難題阻擋在那里,而相對于西方寓言,中文等語(yǔ)言的處理更是難上一層樓。以中文為例,自然語(yǔ)言處理都遇到了哪些難題?
令人費解的多層次語(yǔ)義
此前,曾有這樣一個(gè)段子,在兩場(chǎng)比賽中,中國隊皆打敗了美國隊,中國媒體在報道的時(shí)候分別以“中國隊大勝美國隊”、“中國隊大敗美國隊”來(lái)作為標題,而美國人卻對第二句話(huà)做出了錯誤的理解。在中國人看來(lái),第二句話(huà)是說(shuō)中國隊戰勝了美國隊,而在那些不了解中文或一知半解的人哪里,這句話(huà)有可能會(huì )被理解為“中國隊輸給了美國隊”,這就是一種歧義。
在這方面,連中文學(xué)習都是依靠數據庫的計算機而言,它們也跟那些外國人一樣,都只能算是一知半解,極有可能get不到正確的意思。
連貫的上下文理解
有時(shí)候,人們在理解一句話(huà)的時(shí)候需要上下聯(lián)系,比如說(shuō)話(huà)人所處的環(huán)境,或是文本中的前后文等,這些都是正確理解一句話(huà)所需要考慮的因素。
比如今年“威諾格拉德模式挑戰賽”(圖靈測試的一個(gè)變種)中的一個(gè)題目:市議員們拒絕示威者的游行許可,因為他們害怕暴力。針對“他們”這個(gè)詞的指定對象,如果是人類(lèi)的話(huà),通過(guò)前后文的理解,很快就知道這是在指“市議員們”,不過(guò),對于計算機而言,這就有些困難了。據數據顯示,人類(lèi)胡亂選擇的正確率是45%,而經(jīng)過(guò)慎重考慮的計算機最后的正確率也只比人類(lèi)高了那么一丟丟的3%??梢?jiàn),在遇到這種情況時(shí),計算機的自然語(yǔ)言處理還不能達到令人滿(mǎn)意的程度。
在自然語(yǔ)言處理方面,研究者們還有許多的問(wèn)題需要解決,比如訓練數據的缺乏、成語(yǔ)俗語(yǔ)的處理等等,這些都需要研究者們花費大量時(shí)間去解決。在此基礎之上,由于計算機不能夠正確理解人類(lèi)的語(yǔ)言,一些人工智能產(chǎn)品的落地也相應的受到了限制,比如一些個(gè)聊天機器人、語(yǔ)音助理等等。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
