人工智能正在擁有「嘴」和「鼻」

偉銘 2年前 (2023-09-26)

越來(lái)越像人了

人工智能正在擁有「嘴」和「鼻」

作為人造的智能,AI人工智能擁有著(zhù)人類(lèi)難以企及的強大智慧量和信息處理能力,而現在,人類(lèi)正在賦予其更多的“感官”,讓它越來(lái)越“像”人了。

就在最近,OpenAI宣布將為ChatGPT加上語(yǔ)音功能,相當于給人工智能加上了“嘴”,而此前OpenAI已經(jīng)為ChatGPT加上了“眼睛”,將在10月正式上線(xiàn),面向付費的Plus和企業(yè)版用戶(hù)。

不僅如此,最近已經(jīng)有研究團隊正在努力以AI模型為基礎,讓機器擁有比肩,甚至超越人類(lèi)的嗅覺(jué)。

人工智能擁有“視、聽(tīng)、嗅”這樣的感官究竟有什么必要,今天筆者就和大家一同探究。

人工智能看得更仔細

“眼”應該是人工智能較早擁有的人類(lèi)感官。

研究者從很早就開(kāi)始讓機器能夠學(xué)會(huì )“看”,其原理也非常簡(jiǎn)單,就是用大量的數據進(jìn)行“投喂”。通過(guò)標注區分每張照片、視頻中的結構、模型、色彩等信息,由計算機形成對圖片內容的數字信息概念,進(jìn)而完成區分。也就有了“計算機視覺(jué)”。

人工智能正在擁有「嘴」和「鼻」

(圖源:小米

現有的計算機視覺(jué)在日常生活中應用已經(jīng)很多,尤其在大家的智能手機當中,在拍照時(shí)無(wú)論是“人像模式”的主體摳像,還是美顏相機等一眾強大算法,都離不開(kāi)計算機視覺(jué)。

這次ChatGPT加入的“眼睛”則更進(jìn)一步,直接整合了另一家文生圖大模型DALL·E 3,擁有圖片搜索功能,類(lèi)似谷歌Lens,只要上傳照片,ChatGPT就可以發(fā)現照片中的問(wèn)題,并且提供相應的回應。

人工智能正在擁有「嘴」和「鼻」

(圖源:OpenAI)

而在文生圖部分,DALL·E 3相比同為AI畫(huà)圖應用的Midjourney,在語(yǔ)義理解、關(guān)鍵詞處理等方面也都更加強大,尤其改善了很多大模型對提示詞斷章取義的問(wèn)題,“劉德華為什么很少演反派”觸發(fā)水軍關(guān)鍵詞的類(lèi)似問(wèn)題應該會(huì )少很多(笑)。

人工智能講得更自然

相比于“看”,“聽(tīng)”對人工智能來(lái)說(shuō)要更簡(jiǎn)單不少。

在很早之前,互聯(lián)網(wǎng)公司們就已經(jīng)開(kāi)始積極布局“智能語(yǔ)音助手”了?,F如今,諸如蘋(píng)果Siri、小米小愛(ài)同學(xué)、百度小度,都已經(jīng)有了相對成熟的應用。

但傳統的“智能語(yǔ)音助手”現在也只能做一些諸如開(kāi)關(guān)燈、播報天氣這樣的簡(jiǎn)單應用,一些相對復雜的操作還需要人工介入或者依賴(lài)預設的自動(dòng)化選項。

而這次ChatGPT加上語(yǔ)音功能則能夠支持以5個(gè)“角色”視角來(lái)進(jìn)行回答,相比傳統語(yǔ)音助手,語(yǔ)氣更接近真人,并且在ChatGPT龐大的語(yǔ)言模型支撐下,能夠回答更長(cháng)的問(wèn)題或執行更復雜的操作。

人工智能正在擁有「嘴」和「鼻」

(圖源:公眾號 小米公司)

國內廠(chǎng)商也在布局,在去年5月20日當天,小米以自家小愛(ài)同學(xué)音箱為主角,舉辦了一場(chǎng)特殊的“脫口秀”,這就是小米所做的“情感對話(huà)”功能。

其準確把握到了當代社會(huì )人普遍存在的心理情感問(wèn)題,并以一個(gè)“感情陪伴者”“傾聽(tīng)者”的角度給予一定的陪伴和安慰。

此后,“智能語(yǔ)音助手”將可能被大模型更多改造,以適應情感陪伴、個(gè)性化對話(huà)等更具象化的需求。

人工智能聞得更有價(jià)值

在2013年愚人節期間,谷歌上線(xiàn)了一個(gè)愚人項目Google Nose,用戶(hù)只需要在谷歌搜索框內輸入關(guān)鍵詞,然后點(diǎn)擊“聞一聞”,就能在電腦旁聞到相應的味道,比如新車(chē)的氣味、早餐培根的香味等等。

人工智能正在擁有「嘴」和「鼻」

(圖源:《復仇者聯(lián)盟3》)

這當然是一個(gè)愚人節玩笑(當然,如果你想聞電腦燒糊的味道的話(huà),那還是有機會(huì )的,笑),不過(guò)現在正在有人試圖將這個(gè)項目落地。

今年9月初的《科學(xué)》雜志刊登了一篇由初創(chuàng )公司Osmo(從谷歌分拆)和莫奈爾化學(xué)感官中心(Monell Chemical Senses Center)等多個(gè)研究團隊共同發(fā)布的論文,其中稱(chēng),AI模型可以讓機器擁有比人類(lèi)更好的“嗅覺(jué)”。

相比于圖片、語(yǔ)音、文字這樣已經(jīng)可數字化記錄和呈現的內容,目前還沒(méi)有一個(gè)量化的指標能夠采集歸納出“氣味”。

人工智能正在擁有「嘴」和「鼻」

(圖源:品玩)

實(shí)驗人員通過(guò)模擬人類(lèi)嗅覺(jué)系統對于特定氣味分子的識別傳遞過(guò)程,搭建了一套“消息傳遞神經(jīng)網(wǎng)絡(luò )”機器學(xué)習的模型,隨后引入了一個(gè)包含約5000個(gè)分子的香精香料數據庫,最終得出了一套嗅覺(jué)高維圖譜。其最終對氣味的識別準確率還要高過(guò)人類(lèi)氣味專(zhuān)家。

而這樣一套讓人工智能能夠“聞”到味道的系統,可能有著(zhù)大家想象之外的巨大意義。

回望人類(lèi)利用嗅覺(jué)的主要場(chǎng)景,除了品味食物等日常場(chǎng)景,能夠最先想到的就是“警犬”——由于犬類(lèi)比人發(fā)達數十倍的嗅覺(jué)系統,往往被訓練用作掃毒、排爆這樣的執法場(chǎng)景。而讓機器擁有嗅覺(jué)就能夠讓生物遠離潛在的威脅。

另一方面,早年筆者還曾看過(guò),由于犬類(lèi)發(fā)達的嗅覺(jué),能夠對人類(lèi)癌癥等病灶有明顯的感知,而由機器來(lái)“聞”則更加具象化且易于診斷,是醫療診斷的新發(fā)展路徑。

同時(shí),這對于香水行業(yè)、餐飲業(yè)、環(huán)保業(yè)都有可能的幫助。

寫(xiě)在最后

各位讀者覺(jué)得,讓機器、人工智能擁有人類(lèi)的“五感”是有意義的嗎?歡迎在評論區留下你的看法。

本文作者:Visssom,觀(guān)點(diǎn)僅代表個(gè)人,題圖源:pixabay

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到