搜索

智子引擎發(fā)布大模型–元乘象ChatImg2.0

偉銘 2年前 (2023-05-31)

今天，智子引擎發(fā)布元乘象ChatImg2.0，同時(shí)聯(lián)合軟通動(dòng)力、軟通智慧、福建AI計算中心等多家企業(yè)共同邁出多模態(tài)AI大模型產(chǎn)業(yè)落地的第一步。

2023年是AI大模型全面爆發(fā)的元年，國內外AI大模型技術(shù)在加速更新迭代，產(chǎn)業(yè)需求不斷增加。其中，多模態(tài)大模型作為最前沿的AI技術(shù)，有著(zhù)廣泛的應用前景。如何將多模態(tài)大模型與產(chǎn)業(yè)相結合、與具體應用場(chǎng)景相結合，成為多方關(guān)注的重要課題。智子引擎團隊在多模態(tài)大模型領(lǐng)域深耕多年，他們的技術(shù)始終站在世界前列。今天，智子引擎發(fā)布元乘象ChatImg2.0，同時(shí)聯(lián)合軟通動(dòng)力、軟通智慧、福建AI計算中心等多家企業(yè)共同邁出多模態(tài)AI大模型產(chǎn)業(yè)落地的第一步。

一、回顧ChatImg1.0

2023年3月8日，智子引擎團隊發(fā)布世界首個(gè)多模態(tài)對話(huà)應用ChatImg，如果說(shuō)ChatGPT靠對文字輸入這單一信號的理解就完成了對部分人類(lèi)的智力超越，那么「元乘象 Chatimg」則實(shí)現了對多態(tài)輸入信號的統籌理解，它能聽(tīng)能看，既能察言又能觀(guān)色，它能說(shuō)會(huì )道，既能感知多路信號，又能統籌理解該說(shuō)什么不該說(shuō)什么。它把GPT的五官和大腦的協(xié)同能力，又往前推進(jìn)了一步。

給「元乘象Chatimg」一張「搭載火箭升空的大腦」的圖像，它不僅能解讀出圖片的內容，還能判斷該場(chǎng)景在現實(shí)中是否合理。

智子引擎發(fā)布大模型--元乘象ChatImg2.0

甚至，它還能根據圖片編個(gè)故事，而且編的故事往往比較積極、陽(yáng)光：

智子引擎發(fā)布大模型--元乘象ChatImg2.0

隨著(zhù)AI智能涌現的到來(lái)，「元乘象 Chatimg」會(huì )加速自身能力迭代，如從多模態(tài)信息的識別推理能力，進(jìn)一步向多模態(tài)的生成能力進(jìn)化，并從更廣的應用范圍與其他事物進(jìn)一步融合，如在機器人、玩具、可穿戴設備、家居家電、交通設備等等，萬(wàn)物互聯(lián)、萬(wàn)物有靈的時(shí)代終將到來(lái)。

二、ChatImg2.0

在ChatImg基礎上，智子引擎團隊繼續在多方面優(yōu)化模型：1、支持語(yǔ)音輸入；2、支持視頻輸入；3、增加多個(gè)一鍵體驗功能；4、用戶(hù)自定義新功能。

智子引擎發(fā)布大模型--元乘象ChatImg2.0

圖文對話(huà)實(shí)際效果方面，ChatImg2.0可以看懂非常豐富的圖像內容：

智子引擎發(fā)布大模型--元乘象ChatImg2.0

視頻對話(huà)實(shí)際效果方面，ChatImg2.0可以看懂視頻并對內容作出推理：

智子引擎發(fā)布大模型--元乘象ChatImg2.0

純文本對話(huà)效果方面，ChatImg2.0可以讀懂多種多樣的指令（扮演詩(shī)人、rapper、演說(shuō)家等）：

智子引擎發(fā)布大模型--元乘象ChatImg2.0

在公開(kāi)的多模態(tài)對話(huà)數據集（LLaVa）上的評測結果，表明ChatImg2.0顯著(zhù)超過(guò)了眾多的開(kāi)源模型。具體地，我們采用如下打分方式：給定90個(gè)問(wèn)題，將問(wèn)題、圖像描述、待測模型回答結果和GPT4回答結果一起輸入GPT3.5，讓GPT3.5對比兩個(gè)回答，分別給出分數（0-10分），最終為90個(gè)問(wèn)題上的總分。詳細的多模態(tài)對話(huà)評測結果見(jiàn)下表：

智子引擎發(fā)布大模型--元乘象ChatImg2.0

上表中的GPT4回答結果，是使用GPT4的純文本版本基于給定的圖像描述和目標檢測信息作答的，沒(méi)有真正看到圖像。特別地，*代表待測模型針對測試集中的中文問(wèn)題，絕大部分是用英文回答的，需要提前用GPT3.5翻譯成中文?？梢钥闯?，ChatImg2.0的中文和英文多模態(tài)對話(huà)能力均超過(guò)了目前最好的開(kāi)源模型。

三、ChatImg的落地場(chǎng)景

智子引擎聯(lián)合軟通智慧探索了多模態(tài)大模型在城市社會(huì )治理領(lǐng)域的應用場(chǎng)景。元乘象ChatImg可以同時(shí)在許多復雜場(chǎng)景達到90%以上的準確率，顯著(zhù)超越了傳統AI模型。由于從部署幾百個(gè)小模型變成了部署一個(gè)大模型，整個(gè)系統的復雜度、部署代價(jià)都有顯著(zhù)的降低。

智子引擎發(fā)布大模型--元乘象ChatImg2.0

與此同時(shí)，元乘象團隊還聯(lián)合北京理工大學(xué)張偉民教授團隊共同打造了一款智能機器人“小象”，為ChatImg裝上了“身體”。

演示視頻：

智子引擎發(fā)布大模型--元乘象ChatImg2.0

四、元乘象的未來(lái)發(fā)展

智子引擎團隊表示，他們的核心發(fā)展戰略是打造一個(gè)通用的多模態(tài)AI生成模型—元乘象，支持多模態(tài)輸入、多模態(tài)輸出。ChatImg只是其中一部分對話(huà)模型，團隊成員已經(jīng)在文生圖、文生視頻、多模態(tài)融合搜索等多個(gè)領(lǐng)域取得成果，后期將全部整合進(jìn)元乘象。

最后，記得關(guān)注微信公眾號：鎂客網(wǎng)（im2maker），更多干貨在等你！

鎂客網(wǎng)

科技 | 人文 | 行業(yè)

微信ID：im2maker

長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

偉銘作者

偉銘作者

117篇

文章總數

最新文章

OpenAI競品：加拿大AI公司Cohere完成5億美元戰略融資丨鎂客每周硬科技投融資匯總

蘋(píng)果收購AI公司，但不是做大模型的丨鎂客每周硬科技投融資匯總

阿里再次領(lǐng)投AI大模型公司：Minimax名之夢(mèng)收獲6億美元丨鎂客每周硬科技投融資匯總

微軟收購歐洲創(chuàng )企Mistral AI少數股權，夯實(shí)AI領(lǐng)袖地位丨鎂客每周硬科技投融資匯總

微軟的另一條“腿”，要做真正Open的AI

janpanese日本护士tube_色欲久久久天天天_国产精品国产三级区别第一集_一色屋任你精品亚洲香蕉