機器人也會(huì )造假、有偏見(jiàn)?原因在這
報假新聞、推不雅視頻?機器學(xué)習算法這是怎么了?
前段時(shí)間,Facebook將人類(lèi)編輯解雇,并讓人工智能擔任熱門(mén)榜單的編輯。然而,在上任之后,該機器學(xué)習算法連續幾天將幾條不實(shí)新聞以及不雅視頻推上熱門(mén)榜單,其中包括宣稱(chēng)??怂剐侣劤吹袅酥鞒秩薓egyn Kelly并稱(chēng)其為“叛徒”,沒(méi)過(guò)多久此則新聞就得到了當事人及相關(guān)人員辟謠。
此外,在今年3月23日,微軟悄悄的推出了一款聊天機器人Tay。Tay最初是以一個(gè)清新可愛(ài)的少女形象出現,但是由于她的算法設定是通過(guò)學(xué)習網(wǎng)友的對話(huà)來(lái)豐富自己的語(yǔ)料庫,很快她被網(wǎng)友充斥著(zhù)激烈偏見(jiàn)的話(huà)語(yǔ)“帶壞”,變成了一個(gè)徹底的仇視少數族裔、仇視女性、沒(méi)有任何同情心的種族主義者。
種種現象看來(lái),機器學(xué)習也不是那么的完美,這到底是如何造成的?而且,在智能汽車(chē)領(lǐng)域,研究人員意圖將機器學(xué)習運用到人工智能車(chē)載系統上,并讓其學(xué)會(huì )車(chē)主的駕駛習慣。但是,在看了上面的例子之后,為了打造更好的機器學(xué)習算法,我們應該做些什么?
為何機器學(xué)習總是出錯?
簡(jiǎn)單來(lái)說(shuō),機器學(xué)習的原理就是用大量的數據對算法進(jìn)行訓練,從而達到理解人、學(xué)習人的目的。從中我們可以知道,這其中最重要的就屬算法的“學(xué)習”過(guò)程。
以Tay的偏見(jiàn)為例,關(guān)于這個(gè),在一個(gè)月前,谷歌的一個(gè)數據庫貌似給出了答案。
兩年前,谷歌的幾個(gè)研究員啟動(dòng)了一個(gè)神經(jīng)網(wǎng)絡(luò )項目,目標是找出單詞相鄰組合的各種模式,而所要使用的語(yǔ)料庫來(lái)自谷歌新聞文本中的300萬(wàn)個(gè)單詞。雖然結果很復雜,但團隊人員發(fā)現可以用向量空間圖來(lái)展示這些模式,其中大約有300個(gè)維度。
在向量空間中,具有相似意義的單詞會(huì )占據同一塊位置,而單詞間的關(guān)系,可以通過(guò)簡(jiǎn)單的向量代數來(lái)捕捉。例如,“男人與國王就相當于女人與王后”,可以使用符號表示為“男人:國王::女人:王后”。相似的例子有,“姐妹:女人::兄弟:男人”等等。這種單詞之間的關(guān)系被稱(chēng)為“單詞嵌入”。
最后,蘊含了諸多單詞嵌入的數據庫被稱(chēng)為Word2vec。之后的幾年內,大量研究人員開(kāi)始使用它幫助自己的工作,比如機器翻譯和智能網(wǎng)頁(yè)搜索。
但是有一天,波士頓大學(xué)的Tolga Bolukbasi的和幾位來(lái)自微軟研究院的人員發(fā)現,這個(gè)數據庫存在一個(gè)很大的問(wèn)題:性別歧視。
比如說(shuō),你在數據庫里詢(xún)問(wèn)“巴黎:法國::東京:x”時(shí),系統給你的答案是x=日本。但是,如果問(wèn)題變?yōu)?ldquo;父親:醫生::母親:x”時(shí),給出的答案是x=護士;再比如問(wèn)題“男人:程序員::女人:x”,答案為 x=主婦。
這種答案在一定程度上已經(jīng)算是一種性別歧視了。而據分析,個(gè)中原因是Word2vec語(yǔ)料庫里的文本本身帶有性別偏見(jiàn),之后的向量空間圖隨之也受到影響。
由此我們可以看出,機器學(xué)習之所以會(huì )出錯,某種程度上還是歸于“學(xué)習資料”的“不太正經(jīng)”,以及算法那種什么都學(xué)的性質(zhì)。
這種錯誤是否可以避免?
講真,以當前的技術(shù)來(lái)講,這種現象是很難杜絕的。如果要杜絕這種情況的出現,那不僅涉及到技術(shù)層面,還有社會(huì )道德層面。
先看社會(huì )道德層面。機器學(xué)習算法的數據來(lái)源于人們的語(yǔ)言、行為習慣等,以軟銀計劃打造的人工智能汽車(chē)為例。7月份,軟銀與本田達成合作,聯(lián)手打造一輛能夠閱讀駕駛員情緒并與之交流的汽車(chē),在行駛過(guò)程中,系統中的機器學(xué)習算法可以學(xué)習駕駛員的駕駛習慣,從而在無(wú)人駕駛模式開(kāi)啟時(shí),能夠給予駕駛者最舒服、毫無(wú)違和感的的駕駛體驗。但是,如果該駕駛員有不良駕駛習慣,那將會(huì )對算法的學(xué)習提供錯誤的示范。
這僅僅是駕駛習慣,而在語(yǔ)言方面,其中可能包括暴力、侮辱等等字眼,相比于駕駛習慣,這些更難以約束。因而,在學(xué)習對象都不能“正經(jīng)”的情況下,又怎么將機器學(xué)習算法調教完美?
再看技術(shù)層面,這也得從數據方面下手。如果想要好好的訓練算法,研究人員就得剔除數據中的不良信息和隱藏的邏輯,再讓算法分別識別。但從這里我們就可以了解到,這是對于研究人員而言,將是一項極其繁重、極具難度的工作。而且,摳字眼還是比較簡(jiǎn)單的了,最難搞的還是字里行間的邏輯關(guān)系,一不小心就是一個(gè)大坑。不管是人類(lèi),還是機器,對于這種識別都是一個(gè)難以跨越的坎兒。
以此種種來(lái)看,機器學(xué)習固有它的好處,但我們還是不能過(guò)于依賴(lài),尤其是涉及到一些復雜的工作,比如開(kāi)車(chē)、聊天等情形。不過(guò),雖然當前這個(gè)問(wèn)題很難解決,但隨著(zhù)人工智能技術(shù)的發(fā)展,說(shuō)不定哪天研究人員就能想到一個(gè)法子,從而徹底解決這個(gè)問(wèn)題。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
