科技巨頭狂撒千億美元 “買(mǎi)照片”,只為訓練AI模型?
高質(zhì)量的數據,越來(lái)越值錢(qián)。
你能想象,那些被遺忘在網(wǎng)盤(pán)的陳年老圖,有朝一日能價(jià)值千金?
就在最近,路透社報道稱(chēng),蘋(píng)果公司正與圖像托管網(wǎng)站Photobucket協(xié)商,希望得到這家公司近130億張照片、視頻組成的龐大圖像庫,并以此來(lái)訓練AI模型。
蘋(píng)果不是這家網(wǎng)站的唯一買(mǎi)家,其他硅谷大廠(chǎng)們都在尋求與之達成協(xié)議。而這些巨頭們也毫不吝嗇,甚至愿意掏出數十億美元的真金白銀購買(mǎi)這些素材。
不只是Photobucket,Reddit、Youtube等知名網(wǎng)站都成了科技巨頭們的瘋搶目標。
蘋(píng)果為訓練AI買(mǎi)圖片,網(wǎng)友擔憂(yōu)隱私
Photobucket是一個(gè)提供影像寄存、視頻寄存、幻燈片制作與照片分享服務(wù)網(wǎng)站,成立于2003年。在當時(shí),用戶(hù)把這個(gè)網(wǎng)站當作個(gè)人相冊,與功能與現在流行的在線(xiàn)相冊非常相似。
在巔峰期,該網(wǎng)站曾擁有7000萬(wàn)用戶(hù)。而到2007年,Photobucket就聲稱(chēng)已有超過(guò)28億張圖像上傳到其網(wǎng)站。不過(guò)隨著(zhù)越來(lái)越多的功能更強大的在線(xiàn)相冊App出現之后,這種網(wǎng)站式的在線(xiàn)相冊也逐漸失去了熱度。
不過(guò)畢竟是一家成立二十多年的網(wǎng)站,別的不說(shuō),數據是真的多,130億張圖片與視頻,足夠AI模型消化很久。
據悉,蘋(píng)果購買(mǎi)的圖片的主要目的就是提高生成式AI的水平。
除此之外,蘋(píng)果公司在早些時(shí)候與另一家圖片素材網(wǎng)站Shutterstock達成了數百萬(wàn)張圖片的授權協(xié)議,據悉這筆交易的價(jià)值在2500萬(wàn)美元到5000萬(wàn)美元之間。
隨著(zhù)今年6月份WWDC大會(huì )日益臨近,每個(gè)人都在期待蘋(píng)果公司能帶來(lái)“令人驚嘆”的AI功能。
但和上筆交易不同,不少網(wǎng)友開(kāi)始為了隱私擔心。有人評論表示,Photobucket的圖片來(lái)源都是基于網(wǎng)友的“托管,這就意外著(zhù)這些圖片雖然已經(jīng)是陳年老圖,但仍屬于用戶(hù)的個(gè)人秘密。
而Shutterstock的數據大多是免版稅的圖片、矢量圖和插圖庫,包括影片剪輯以及音樂(lè )曲目,本身就可以授權給用戶(hù)使用。這么一對比,網(wǎng)友對于Photobucket的數據隱私安全問(wèn)題也可以理解了。
除了涉及隱私以外,不少網(wǎng)友還對這些庫存照片的質(zhì)量提出了質(zhì)疑。如果給AI喂食這些本來(lái)就帶有錯誤的圖片,那么是否會(huì )生成質(zhì)量更低的圖片呢?
總之,就蘋(píng)果購買(mǎi)Photobucket圖片的行為,大多數網(wǎng)友并不贊同。
但即使冒著(zhù)泄露隱私的風(fēng)險,蘋(píng)果和其他公司們還是得“鋌而走險”搞來(lái)這些數據。主要原因還是高質(zhì)量的互聯(lián)網(wǎng)數據,可能沒(méi)幾年就要耗盡了。
其實(shí)早在多年前,各大科技巨頭就已經(jīng)碰到訓練語(yǔ)料缺失的瓶頸。
據《紐約時(shí)報》報道,OpenAI在訓練GPT-4時(shí),就曾遇到英文文本資料缺失的情況。
為了處理這個(gè)問(wèn)題,OpenAI推出一款名為Whisper語(yǔ)音識別工具,用來(lái)轉錄谷歌旗下視頻平臺Youtube的視頻音頻,生成大量的對話(huà)文本。
據報道稱(chēng),這款工具以開(kāi)源的名義轉錄了超過(guò)一百萬(wàn)小時(shí)的Youtube視頻,實(shí)際上已經(jīng)違反了Youtube的隱私規則,而這些資料也成為ChatGPT的基礎。
這并不是OpenAI第一次因為偷扒數據犯錯。包括《紐約時(shí)報》在內,多家數字新聞媒體對OpenAI提起版權侵權訴訟,認為他們的數千篇報道被OpenAI用來(lái)訓練ChatGPT。
當然,通過(guò)“爬蟲(chóng)”等手段搜刮訓練數據的科技公司不止OpenAI這一家,“受害者”谷歌也曾通過(guò)修改服務(wù)條款的方式,將“使用公開(kāi)信息訓練AI模型”偷偷寫(xiě)進(jìn)隱私細則中,從而允許工程師們利用公開(kāi)的文檔、在線(xiàn)資料等開(kāi)發(fā)AI產(chǎn)品。
不過(guò)隨著(zhù)OpenAI在版權問(wèn)題上越陷越深,其他科技巨頭也只能乖乖掏錢(qián)為訓練數據付費。
至少比起互聯(lián)網(wǎng)上免費抓取的數據,Photobucket近130億的數據量還是相對來(lái)說(shuō)質(zhì)量更高點(diǎn)。
花錢(qián)買(mǎi)數據,或許還不夠
可怕的是,即便是130億的數據量,也可能喂不飽現在的AI的模型。
研究機構Epoch直白地表示,現在科技公司使用數據的速度已經(jīng)超過(guò)數據生產(chǎn)的速度,這些公司最快會(huì )在2026年就耗盡互聯(lián)網(wǎng)上的高質(zhì)量數據。
有數據統計,在2020年11月發(fā)布的GPT-3上,使用了3000億個(gè)Token的訓練數據。而到了2024年,谷歌PaLM 2的訓練數據量則達到3.6萬(wàn)億個(gè)Token。
數據量是一回事,數據的質(zhì)量更是直接影響AI大模型的生成能力。正如網(wǎng)友所擔憂(yōu)的那樣,低質(zhì)量的數據甚至可能讓AI陷入不可逆轉的方向。
面對這樣的問(wèn)題,OpenAI開(kāi)始嘗試使用合成數據(AI生成的數據)來(lái)訓練AI。這樣既可以減少對受版權保護數據的依賴(lài),同時(shí)也能訓練出更強大的結果。
對此OpenAI和一系列機構開(kāi)始研究使用兩個(gè)不同的模型來(lái)生成更有用、更可靠的合成數據,其中一個(gè)模型用來(lái)生成數據,另一個(gè)則用來(lái)對生成的數據進(jìn)行審核。
不只是OpenAI,英偉達很早就在用合成數據彌補現實(shí)世界的數據。在2021年11月,英偉達對外推出合成數據生成引擎Omniverse Replicator。
英偉達將其描述為“用于生成具有基本事實(shí)的合成數據以訓練 AI 網(wǎng)絡(luò )的引擎”,其作用就是用來(lái)訓練AI。
此產(chǎn)品推出后,由該引擎生成的合成數據在自動(dòng)駕駛、機器人等多個(gè)場(chǎng)景里都得到了驗證,因此英偉達也在近些年希望將其推廣到更多領(lǐng)域,包括聊天機器人。
然而,合成數據在工業(yè)場(chǎng)景里的成功案例,并不代表在其他領(lǐng)域都能遵循物理規律。
有時(shí)候AI連真實(shí)圖片都無(wú)法理解,更不要說(shuō)理解二次生成的圖片了。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
