你的人臉數據都去了哪兒?

巫盼 6年前 (2019-09-30)

人臉數據收集容易,監管卻是難上加難。

在A(yíng)I換臉軟件ZAO和曠視校園人臉識別的風(fēng)波后,17萬(wàn)人臉數據被公開(kāi)掛在網(wǎng)上商城出售的消息“接踵而至”,人臉突然成了“危險品”。

無(wú)處不在的人臉識別,當采集人臉數據的渠道越來(lái)越廣,很多人會(huì )疑惑,我們的人臉數據最終都流向了哪里?

在刷臉解鎖手機,付款,進(jìn)出入高鐵站、機場(chǎng)的時(shí)代,你的臉可能在研究人員的數據集中,也可能在暗網(wǎng)的黑產(chǎn)交易中,也可能被Deepfake后換到了另一個(gè)身體上……

人臉數據都去了哪兒?數據集或成為隱患

AI時(shí)代下,科技公司會(huì )通過(guò)數十億張人臉圖片的訓練來(lái)改進(jìn)面部識別算法,你的臉很有可能就是“訓練樣本”之一,那么軟件公司又通常從哪些渠道獲取人臉圖像“喂養”自家的算法呢?

早年,人臉識別還沒(méi)有進(jìn)入到深度學(xué)習的階段,人臉數據收集還是打著(zhù)隱私的烙印,研究人員需要獲得志愿者同意,才能采集人臉數據納入到數據庫中。比如早期由耶魯大學(xué)計算視覺(jué)與控制中心創(chuàng )建的Yale人臉數據庫,只包含了15位志愿者的165張圖片。

但是到了后期,尤其是深度學(xué)習技術(shù)的快速應用普及,幾百張志愿者的人臉對于數據訓練來(lái)說(shuō)只是杯水車(chē)薪,人臉數據的收集也開(kāi)始走向不可控。

人臉數據集通常情況下是為圖像識別賽事準備的,比如微軟的MS Celeb 1M,這個(gè)由微軟在2016年發(fā)布,包含了10萬(wàn)個(gè)名人,近1000萬(wàn)張面部圖片的數據庫,就是用來(lái)服務(wù)當時(shí)最高水平圖像識別賽事之一的MSR IRC。

你的人臉數據都去了哪兒?

同樣還有業(yè)界“黃金標準”之稱(chēng)的人臉識別算法測試FRVT,其背后由美國國家標準與技術(shù)研究院(NIST)提供人臉數據集支持。

此時(shí)以學(xué)術(shù)研究為目的的人臉數據集還處在可控范圍內,但是到了后期,誰(shuí)也無(wú)法控制這些人臉數據到底被用作什么,數據訓練之外,它又流向了哪里?

如果我們在搜索引擎里鍵入關(guān)鍵詞“人臉數據集”,會(huì )發(fā)現海量的人臉數據庫可以被下載獲取,就像在網(wǎng)上下載資源一樣,輕點(diǎn)一下,跳轉到下載軟件,幾個(gè)G的人臉數據包就“屬于”你了。

你的人臉數據都去了哪兒?

成千上萬(wàn)張被標記的人臉數據,如此輕易被獲得,細思極恐。問(wèn)題隨之而來(lái),數據集中的人臉到底從何而來(lái)?

鎂客網(wǎng)粗略統計了幾個(gè)包含人臉數據較多,且常用的人臉數據集,從發(fā)布機構來(lái)看,多為科技公司和高校,獲取渠道有三個(gè):1、爬取互聯(lián)網(wǎng)數據;2、源自雅虎旗下網(wǎng)絡(luò )相冊Flickr;3、新聞機構、商業(yè)公司等。

你的人臉數據都去了哪兒?

這些人臉數據集有的已經(jīng)做好標注,囊括了人臉關(guān)鍵點(diǎn)檢測、人臉表情、人臉年齡和性別、人臉姿態(tài)等信息。

多數數據集在開(kāi)放的時(shí)候,都會(huì )寫(xiě)上不可商用的補充協(xié)議,強調是在知識共享許可(CC協(xié)議)下抓取和搜索圖像,根據CC協(xié)議中:照片可以重新用于學(xué)術(shù)研究,照片中的人物并不一定授權許可,而是版權所有者授權。然而數據集公布后,發(fā)布機構也無(wú)法掌管它的使用。

你的人臉數據都去了哪兒?

不然,微軟也不會(huì )在被媒體大面積曝光后,悄悄地刪除了這個(gè)世界上最大的公開(kāi)人臉識別數據庫。之后另外兩個(gè)學(xué)術(shù)單位也刪除了相關(guān)的數據集:分別是杜克大學(xué)的Duke MTMC監控數據集,和斯坦福大學(xué)的Brainwash數據集。

當初衷是為了推動(dòng)學(xué)術(shù)研究的人臉數據集,都有被商用以及濫用的風(fēng)險,更何況那些源自其他渠道的人臉數據。

以人臉數據買(mǎi)賣(mài)為例,早在2016年,知乎上就出現了網(wǎng)友在淘寶買(mǎi)人臉數據的話(huà)題。除了網(wǎng)上商城之外,人臉數據也可以從售賣(mài)面部數據的商業(yè)公司處獲得,比如一家名為Vigilant Solutions的公司就提供1500萬(wàn)張面孔,可以用來(lái)“解決”人臉識別軟件訓練的難題。

至于這些人臉又源自哪里,恐怕和上述幾個(gè)渠道脫不了干系,也有可能是直接下載的公開(kāi)數據集進(jìn)行轉賣(mài)。

你的人臉數據都去了哪兒?

人臉數據被賣(mài)了也好,流向人臉數據集也罷,歸根結底,后續的應用是完全失控的。

“裸奔”的人臉數據,防不勝防的風(fēng)險

如果早期我們收集人臉數據還是在志愿者的知情同意下獲取,后期就完全摒棄個(gè)人隱私,直接通過(guò)爬蟲(chóng)程序,美其名曰要遵守共享知識協(xié)議,但很多人在上傳自己的照片到社交平臺、互聯(lián)網(wǎng)相冊的時(shí)候,壓根不知道這些圖片已經(jīng)被納入了這個(gè)協(xié)議下。

就像前陣子掀起軒然大波的ZAO,在密密麻麻的用戶(hù)協(xié)議中,一排不起眼的條款提到“同意授予ZAO及其關(guān)聯(lián)公司以及ZAO用戶(hù)全球范圍內完全免費、不可撤銷(xiāo)、永久、可轉授權和可再許可的權利”,如果沒(méi)有后續的風(fēng)波,你的人臉數據悄然無(wú)息間就被“賣(mài)”了。

當前,收集人臉的途徑非常多,除了政府部門(mén)的安保需要,很多商業(yè)場(chǎng)景也都要求使用面部識別。比如參加某個(gè)大型會(huì )議,主辦方需要提供個(gè)人照片提前錄入到人臉識別系統;比如住酒店,需要面部識別確認;再比如一些社交APP,自動(dòng)識別標記上傳圖片中的人臉;還有一些披著(zhù)相冊應用外衣,實(shí)際是收集人臉信息的軟件程序……

之前Facebook因“未經(jīng)用戶(hù)同意,非法收集并存儲數百萬(wàn)用戶(hù)的生物識別數據”被集體起訴,在今年9月,壓力之下的Facebook選擇停止在用戶(hù)的照片和標簽建議中默認使用面部識別功能。

你的人臉數據都去了哪兒?

當你把包含自己人臉的照片上傳到云端,沒(méi)有人確保最終這些人臉數據可以被妥善保管。上傳到平臺,必然涉及到會(huì )不會(huì )保存到云端,如果在云端,數據最終流向何處呢?帶來(lái)的風(fēng)險是什么?

其實(shí)從人臉數據集的來(lái)源渠道也能了解到上傳面部照片到網(wǎng)上的風(fēng)險是非常高的。

此前有媒體曝光,國內一家人臉識別公司發(fā)生大規模數據泄露事件,超過(guò)250萬(wàn)人的數據可被獲取,其中包括姓名、身份證號碼以及照片。

今年年初,美國海關(guān)和邊境保護局收集的旅客照片和車(chē)牌照片讓一個(gè)外包公司泄露,而流出的數據已經(jīng)被人掛在暗網(wǎng)上,可以免費下載。

類(lèi)似新聞層出不窮,所以人臉數據引發(fā)的風(fēng)險也非常高,當隱私信息被出售或者可被公開(kāi)獲取后,人臉可以用于金融領(lǐng)域的詐騙、亦或是在換臉軟件下,被用在一些不當的場(chǎng)合下,比如將你的臉成小視頻的女主角。除此之外,圍繞人臉識別系統的種族歧視和偏見(jiàn)爭議,也引發(fā)了巨大爭議。

人臉保衛戰,收集容易監管難

有的時(shí)候,技術(shù)和應用會(huì )處在相悖的一個(gè)狀態(tài),一方面,算法需要大量的人臉數據去優(yōu)化,從而帶來(lái)更準確、安全、高效的識別,避免可能會(huì )發(fā)生的欺騙性行為,另一方面,在優(yōu)化算法的過(guò)程中又難以保證人臉數據的安全和不濫用,算法應用到場(chǎng)景中又會(huì )再次無(wú)限制收集更多的人臉數據,最終陷入兩難的局面。

研究人臉識別的技術(shù)公司非常多,從CV四小龍到谷歌、微軟、亞馬遜、阿里巴巴這樣的科技巨頭,它們借助技術(shù)提高社會(huì )效率的同時(shí),也會(huì )掉入輿論的旋渦中。

就在最近,繼支付寶要在三年投入30億推動(dòng)刷臉支付后,有消息稱(chēng)微信也將拿出100億補貼刷臉硬件設備的推廣,當人臉作為常態(tài)的身份認證方式,保衛人臉安全也愈加重要。

人臉數據收集容易,監管卻是難上加難,無(wú)論是國外還是國內,在人臉數據安全上都顯得憂(yōu)心忡忡,美國的舊金山和薩默維爾已經(jīng)通過(guò)立法的方式禁止在公共場(chǎng)所使用面部識別技術(shù),其中舊金山是禁止警察和其他政府機構使用面部識別技術(shù)。這種一刀切的管理方式,雖然一定程度上規避了風(fēng)險,但治標不治本。

國內的話(huà),因為人臉識別走進(jìn)教室以及換臉軟件ZAO的病毒式傳播,不少人開(kāi)始注意到人臉數據安全的問(wèn)題。近日有消息,有關(guān)部門(mén)將發(fā)布人臉識別領(lǐng)域相關(guān)金融標準,以明確人臉信息采集、傳輸、存儲、利用等環(huán)節的安全管理要求。

其實(shí),談到如何保護我們的人臉數據,無(wú)外乎三個(gè)方面。除了個(gè)人提高安全意識之外,采集人臉數據的商業(yè)公司也需要通過(guò)技術(shù)手段保護數據的安全,監管部門(mén)則從制度層面加快相關(guān)法規標準的落地。

悲觀(guān)的想,技術(shù)是雙刃劍,雖然我們通過(guò)規則約束可以減少一定的風(fēng)險,但有買(mǎi)賣(mài),就有傷害,只要技術(shù)需要,你的人臉數據去哪兒了,被用作什么,可能誰(shuí)也不知道。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到