帶“眼睛”的ChatGPT應用來(lái)了!150億參數多模態(tài)大模型加持,讀圖聊天樣樣全能
國產(chǎn)ChatGPT應用,彎道超車(chē)。
在許多人的印象里,ChatGPT是個(gè)無(wú)所不能的“怪物”。
它可以寫(xiě)詩(shī),可以編代碼,甚至可以直接生成長(cháng)篇論文……此外,ChatGPT還極富情商、表現欲十足,只需數輪對話(huà),就足以征服眾人。
但ChatGPT真的是無(wú)所不能的嗎?
作為聊天機器人,ChatGPT擁有出色的語(yǔ)言理解能力和文本處理能力,但受制于訓練模型,ChatGPT并不支持圖片對話(huà)。試想一下,在平日與好友進(jìn)行聊天時(shí),如果無(wú)法發(fā)送圖片,那自然會(huì )失去部分樂(lè )趣。
而在國內,有這么一家AI研發(fā)團隊,他們推出的“元乘象Chatlmg”應用可以準確識別圖片并能與用戶(hù)進(jìn)行聊天,就好比給ChatGPT加上一雙“眼睛”,看懂文字的同時(shí),也能完美識別圖片。
日前,鎂客網(wǎng)從元乘象研發(fā)團隊獲悉,“元乘象Chatlmg”最近剛剛上線(xiàn),關(guān)注微信公眾號“元乘象”即可體驗該應用。(注:受限于算力,初期為邀請制訪(fǎng)問(wèn)方式)
那么,“元乘象Chatlmg”的使用體驗究竟如何,它的圖片識別功能是否真的神奇呢?在產(chǎn)品上線(xiàn)前夕,鎂客網(wǎng)進(jìn)行了一次全方位的測評總結。
圖 | 元乘象Chatlmg Logo
看圖說(shuō)話(huà)?這款ChatGPT應用很神奇
進(jìn)入“元乘象Chatlmg”,可以看到該應用的界面十分簡(jiǎn)潔明晰——位于下方的文字對話(huà)框,對稱(chēng)式的頭像排版,各種元素組合成我們常見(jiàn)的聊天軟件界面。
而在該應用的左下方,可以看到一個(gè)顯眼的“上傳圖片”按鈕。
目前,該應用圖片上傳支持三種方式,分別是照片圖庫、拍照和文件導入,一次上傳一張。
恰逢三八婦女節,鎂客網(wǎng)也選了兩樣物品交給“元乘象Chatlmg”來(lái)幫忙判定一下是否適合,一張是從搜索引擎上下載的口紅圖片,另一張是通過(guò)手機現拍的便簽本圖片:
可以看到,“元乘象Chatlmg”精準識別出了兩張圖片中的產(chǎn)品,并且還延伸出一些其他描述,比如記事本上的小熊很可愛(ài)、口紅放在白色背景前等等。
與此同時(shí),對于這兩份物品是否適合送給女孩子做禮物,也給出了自己的判斷,還會(huì )提出禮物是否適合需要依據接收者喜好的理性建議。
在“元乘象Chatlmg”給出回復后,我們又追問(wèn)了一句:
嗯,建議非常中肯,上下文理解的邏輯也做到了連貫。
此外,鎂客網(wǎng)也上傳了一些其他圖片讓“元乘象Chatlmg”來(lái)識別。
比如這個(gè):
又比如這個(gè):
還有這些:
可以看出,“元乘象Chatlmg”的識別能力還是相當精準,并能通過(guò)文字形式來(lái)描述所看到的圖片內容。
對比基于純文本互動(dòng)的ChatGPT,除了寫(xiě)詩(shī)歌、撰寫(xiě)文章這類(lèi)基本互動(dòng),多了雙“眼睛”的“元乘象Chatlmg”顯然又挖掘出幾項新功能,物品識別正是其重要功能之一。
之后,隨著(zhù)數據量的不斷擴增以及產(chǎn)品的不斷優(yōu)化,鎂客網(wǎng)也期待“元乘象Chatlmg”能給我們帶來(lái)更多出彩的表現。
百億參數大模型加持,未來(lái)將持續升級
本質(zhì)上,ChatGPT是一款聊天機器人產(chǎn)品,在GPT-3大模型的幫助下,提供了文本生成的能力。而ChatGPT之所以強悍,也恰恰得益于GPT-3。
作為OpenAI開(kāi)發(fā)的自然語(yǔ)言處理模型,其身上有著(zhù)太多話(huà)題點(diǎn)。早在ChatGPT推出之前,GPT-3就已經(jīng)在A(yíng)I領(lǐng)域成功出圈。
據悉,該模型達到1750億參數,一次訓練就需調用上萬(wàn)塊GPU,花費近460萬(wàn)美元的成本。如此瘋狂的“吞金能力”,自然能支撐起ChatGPT這樣的瘋狂應用。
那么ChatGPT還有什么不足之處嗎?答案是有的!
據元乘象研發(fā)團隊表示,“元乘象Chatlmg”搭載了自研的百億級別參數多模態(tài)大模型,相當于給ChatGPT裝上“眼睛”,使其能夠更像人一樣去對話(huà)。
所謂多模態(tài),在A(yíng)I領(lǐng)域中往往指感知信息,如圖像、文本、語(yǔ)音等協(xié)同,幫人工智能更準確地理解外部世界。
也正是在多模態(tài)大模型的加持下,“元乘象Chatlmg”擁有了看懂圖像的能力。
據元乘象研發(fā)團隊介紹,目前該元乘象AI大模型參數規模大概150億;數據方面目前主要是圖文對數據、VQA數據等。而在訓練過(guò)程中,該模型放開(kāi)盡量少的可學(xué)習參數,從而保證在有限算力上的高效訓練。
在問(wèn)及該模型的未來(lái)發(fā)展路徑時(shí),元乘象研發(fā)團隊向鎂客網(wǎng)透露,除了當下的圖文互動(dòng)外,未來(lái)該大模型還會(huì )把圖片生成的能力結合進(jìn)來(lái),這樣在回答的時(shí)候也能回復自己生成的圖像,讓對話(huà)變得更生動(dòng)。
另外,該模式也會(huì )加入包含更多模態(tài),如視頻、音頻等,甚至與數字人等技術(shù)結合,開(kāi)發(fā)出更生動(dòng)立體的形象。
可以想象,在元乘象百億參數多模態(tài)大模型的加持下,我們與聊天機器人的對話(huà)將變得更像真人口吻,AI技術(shù)在未來(lái)帶給我們的驚喜也會(huì )越來(lái)越多。
中國AI廠(chǎng)商狂奔,國產(chǎn)ChatGPT還有多遠?
就在本月舉行的十四屆全國人大一次會(huì )議“部長(cháng)通道”上,科技部部長(cháng)王志剛在談到ChatGPT時(shí),贊揚其為AI及相關(guān)行業(yè)帶來(lái)的進(jìn)步。
與此同時(shí),由ChatGPT引發(fā)的各種討論,也被各位代表、委員們帶進(jìn)了兩會(huì )。
事實(shí)上,早在2017年我國將發(fā)展人工智能上升為國家戰略前,AI就已是全國兩會(huì )上的“???rdquo;。如今ChatGPT火爆全球,不禁讓人們再次發(fā)問(wèn):中國的AI行業(yè)該如何抓住ChatGPT的時(shí)代潮流?
借由新品發(fā)布的機會(huì ),鎂客網(wǎng)也與元乘象研發(fā)團隊負責人高一釗博士就此問(wèn)題進(jìn)行了一番交流探討。
在他看來(lái),國內對于A(yíng)I大模型的建設需要有長(cháng)遠的布局和工作的連續性,才能開(kāi)發(fā)出真正創(chuàng )新的技術(shù)。
當我們回顧ChatGPT的“發(fā)家史”便可以發(fā)現,想做好一款AI大模型并非易事,背后是長(cháng)期的資金投入以及算力技術(shù)迭代,另外還要考慮訓練數據的優(yōu)化、計算能耗的降低等方方面面。
換句話(huà)說(shuō),想做好一款類(lèi)ChatGPT應用,并非通過(guò)一次簡(jiǎn)單的“百米沖刺”即可完成,而是需要耐心跑完一場(chǎng)“萬(wàn)米長(cháng)跑”,才能進(jìn)入群雄逐鹿的“決賽圈”。
但就目前的發(fā)展現狀來(lái)看,國內大廠(chǎng)的AI大模型仍處在研發(fā)階段,能像“元乘象Chatlmg”一樣走到應用層面的團隊仍非常少見(jiàn)——首先國內AI大模型的研發(fā)普遍起步較晚,人才缺口嚴重,其次是中文語(yǔ)境下大模型的訓練難度更大,耗費的時(shí)間遠超英文。
這些問(wèn)題本該需要“耐心”去解決,但隨著(zhù)上一波AI投資熱潮的冷卻,許多公司被迫縮減預算,最終導致相關(guān)AI業(yè)務(wù)發(fā)展陷入了瓶頸。
相比之下,元乘象研發(fā)團隊則走得相對順利,一方面,該團隊在A(yíng)I應用領(lǐng)域的長(cháng)期深耕探索,另一方面也得益于他們在多模態(tài)預訓練模型上正確判斷與前瞻性,最終在整個(gè)團隊的堅持下,終在ChatGPT時(shí)代迎來(lái)了“開(kāi)花結果”。
談及AI企業(yè)未來(lái)的探索之道時(shí),高博士也給出了自己的一些看法:“在生態(tài)搭建方面,國內可以促進(jìn)開(kāi)源,畢竟人多力量大。”
結語(yǔ)
自去年發(fā)布以來(lái),ChatGPT早已從一種“現象級產(chǎn)品”進(jìn)化為一種“科技符號”,國內科技大廠(chǎng)爭先恐后推出類(lèi)ChatGPT產(chǎn)品,希望在這場(chǎng)競賽中摘得所謂的“勝利”。
同時(shí),伴隨ChatGPT的火熱,國內AI行業(yè)再次掀起新一輪新品熱潮,“元乘象Chatlmg”正是在這期間脫穎而出。
從“元乘象Chatlmg”應用的測評來(lái)看,其體驗感已經(jīng)非常友好,甚至擁有“圖像識別”這種ChatGPT所不具備的功能。
當然,作為早期版本的“元乘象Chatlmg”,在一些細節方面仍有欠缺,但相信在元乘象研發(fā)團隊努力與堅持下,未來(lái)國產(chǎn)ChatGPT應用也能驚艷行業(yè)。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
