智子引擎發(fā)布大模型–元乘象ChatImg2.0
今天,智子引擎發(fā)布元乘象ChatImg2.0,同時(shí)聯(lián)合軟通動(dòng)力、軟通智慧、福建AI計算中心等多家企業(yè)共同邁出多模態(tài)AI大模型產(chǎn)業(yè)落地的第一步。
2023年是AI大模型全面爆發(fā)的元年,國內外AI大模型技術(shù)在加速更新迭代,產(chǎn)業(yè)需求不斷增加。其中,多模態(tài)大模型作為最前沿的AI技術(shù),有著(zhù)廣泛的應用前景。如何將多模態(tài)大模型與產(chǎn)業(yè)相結合、與具體應用場(chǎng)景相結合,成為多方關(guān)注的重要課題。智子引擎團隊在多模態(tài)大模型領(lǐng)域深耕多年,他們的技術(shù)始終站在世界前列。今天,智子引擎發(fā)布元乘象ChatImg2.0,同時(shí)聯(lián)合軟通動(dòng)力、軟通智慧、福建AI計算中心等多家企業(yè)共同邁出多模態(tài)AI大模型產(chǎn)業(yè)落地的第一步。
一、回顧ChatImg1.0
2023年3月8日,智子引擎團隊發(fā)布世界首個(gè)多模態(tài)對話(huà)應用ChatImg,如果說(shuō)ChatGPT靠對文字輸入這單一信號的理解就完成了對部分人類(lèi)的智力超越,那么「元乘象 Chatimg」則實(shí)現了對多態(tài)輸入信號的統籌理解,它能聽(tīng)能看,既能察言又能觀(guān)色,它能說(shuō)會(huì )道,既能感知多路信號,又能統籌理解該說(shuō)什么不該說(shuō)什么。它把GPT的五官和大腦的協(xié)同能力,又往前推進(jìn)了一步。
給「元乘象Chatimg」一張「搭載火箭升空的大腦」的圖像,它不僅能解讀出圖片的內容,還能判斷該場(chǎng)景在現實(shí)中是否合理。
甚至,它還能根據圖片編個(gè)故事,而且編的故事往往比較積極、陽(yáng)光:
隨著(zhù)AI智能涌現的到來(lái),「元乘象 Chatimg」會(huì )加速自身能力迭代,如從多模態(tài)信息的識別推理能力,進(jìn)一步向多模態(tài)的生成能力進(jìn)化,并從更廣的應用范圍與其他事物進(jìn)一步融合,如在機器人、玩具、可穿戴設備、家居家電、交通設備等等,萬(wàn)物互聯(lián)、萬(wàn)物有靈的時(shí)代終將到來(lái)。
二、ChatImg2.0
在ChatImg基礎上,智子引擎團隊繼續在多方面優(yōu)化模型:1、支持語(yǔ)音輸入;2、支持視頻輸入;3、增加多個(gè)一鍵體驗功能;4、用戶(hù)自定義新功能。
圖文對話(huà)實(shí)際效果方面,ChatImg2.0可以看懂非常豐富的圖像內容:
視頻對話(huà)實(shí)際效果方面,ChatImg2.0可以看懂視頻并對內容作出推理:
純文本對話(huà)效果方面,ChatImg2.0可以讀懂多種多樣的指令(扮演詩(shī)人、rapper、演說(shuō)家等):
在公開(kāi)的多模態(tài)對話(huà)數據集(LLaVa)上的評測結果,表明ChatImg2.0顯著(zhù)超過(guò)了眾多的開(kāi)源模型。具體地,我們采用如下打分方式:給定90個(gè)問(wèn)題,將問(wèn)題、圖像描述、待測模型回答結果和GPT4回答結果一起輸入GPT3.5,讓GPT3.5對比兩個(gè)回答,分別給出分數(0-10分),最終為90個(gè)問(wèn)題上的總分。詳細的多模態(tài)對話(huà)評測結果見(jiàn)下表:
上表中的GPT4回答結果,是使用GPT4的純文本版本基于給定的圖像描述和目標檢測信息作答的,沒(méi)有真正看到圖像。特別地,*代表待測模型針對測試集中的中文問(wèn)題,絕大部分是用英文回答的,需要提前用GPT3.5翻譯成中文??梢钥闯?,ChatImg2.0的中文和英文多模態(tài)對話(huà)能力均超過(guò)了目前最好的開(kāi)源模型。
三、ChatImg的落地場(chǎng)景
智子引擎聯(lián)合軟通智慧探索了多模態(tài)大模型在城市社會(huì )治理領(lǐng)域的應用場(chǎng)景。元乘象ChatImg可以同時(shí)在許多復雜場(chǎng)景達到90%以上的準確率,顯著(zhù)超越了傳統AI模型。由于從部署幾百個(gè)小模型變成了部署一個(gè)大模型,整個(gè)系統的復雜度、部署代價(jià)都有顯著(zhù)的降低。
與此同時(shí),元乘象團隊還聯(lián)合北京理工大學(xué)張偉民教授團隊共同打造了一款智能機器人“小象”,為ChatImg裝上了“身體”。
演示視頻:
四、元乘象的未來(lái)發(fā)展
智子引擎團隊表示,他們的核心發(fā)展戰略是打造一個(gè)通用的多模態(tài)AI生成模型—元乘象,支持多模態(tài)輸入、多模態(tài)輸出。ChatImg只是其中一部分對話(huà)模型,團隊成員已經(jīng)在文生圖、文生視頻、多模態(tài)融合搜索等多個(gè)領(lǐng)域取得成果,后期將全部整合進(jìn)元乘象。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
