無(wú)界 AI 創(chuàng )始人長(cháng)鋏:無(wú)界在 AI 生態(tài)中的“光合作用”定位丨中國 AIGC 產(chǎn)業(yè)應用峰會(huì )

zhouping 1年前 (2024-01-10)

1 月 5 日,由杭州未來(lái)科技城管委會(huì )、余杭區科技局和余杭區企業(yè)(人才)綜合服務(wù)中心聯(lián)合指導,時(shí)戳科技主辦

1 月 5 日,由杭州未來(lái)科技城管委會(huì )、余杭區科技局和余杭區企業(yè)(人才)綜合服務(wù)中心聯(lián)合指導,時(shí)戳科技主辦,AI 新智界提供媒體特別支持的“智求共贏(yíng)?中國 AIGC 產(chǎn)業(yè)應用峰會(huì )暨無(wú)界 AI 生態(tài)合作伙伴大會(huì )”在杭州正式開(kāi)幕。

本次大會(huì )深度聚焦 AIGC 應用,邀請到了全國各地近百家合作伙伴參會(huì ),以及來(lái)自產(chǎn)研、投資機構、高校、AIGC 創(chuàng )業(yè)者等眾多行業(yè)精英和專(zhuān)家,共同分享過(guò)去一年 AIGC 應用進(jìn)展,探討未來(lái)發(fā)展趨勢。

無(wú)界AI創(chuàng )始人長(cháng)鋏出席大會(huì )并做主題演講:《光合作用:無(wú)界在 AI 生態(tài)中的定位》。他講到,AIGC的過(guò)程特別像是光合作用,“光”是文本、語(yǔ)音、圖像等外界的信息輸入,“二氧化碳和水”是訓練的數據集,“碳水化合物”是生成的圖片。無(wú)界AI的定位是光合作用中的“葉綠體”,為生態(tài)伙伴賦能。

長(cháng)鋏表示,在過(guò)去一年,無(wú)界 AI 訓練了大概1000萬(wàn)張圖片素材,并且與國內50多所高校、博物館建立了數據上的合作。近期,無(wú)界AI將陸續上線(xiàn)各大行業(yè)模型和國風(fēng)、藝術(shù)插畫(huà)、私人影像等模型,將自己的模型能力更好地輸出給生態(tài)伙伴。未來(lái)一年,無(wú)界AI 還將在技術(shù)上進(jìn)一步升級,加強對自然語(yǔ)言的支持,支持文字生成和書(shū)法生成等功能。

以下是AI新智界整理的演講內容,為方便閱讀進(jìn)行了部分刪減:

無(wú)界 AI 的定位

AIGC的過(guò)程特別像是光合作用,“光”是文本、語(yǔ)音、圖像等外界的信息輸入,“二氧化碳和水”是訓練的數據集,“碳水化合物”是生成的圖片。無(wú)界AI的定位相當于生態(tài)中的葉綠體,從宏觀(guān)層面來(lái)說(shuō)就是這個(gè)生態(tài)中的植物。生態(tài)中的動(dòng)物是那些把我們模型能力應用得好,做出現象級、殺手級,或者國民級應用的生態(tài)合作伙伴。

定位有toB和toC之分。 toB是一個(gè)效率工具,能夠節省時(shí)間;toC是一個(gè)情感陪伴,消磨時(shí)間。無(wú)界AI更偏向于toB,我非常相信將來(lái)生態(tài)伙伴能做出現象級的應用。當前,無(wú)界更希望將模型能力賦能生態(tài)合作伙伴,專(zhuān)注幫企業(yè)降本增效。

模型訓練的兩大流派

模型訓練分為兩個(gè)流派:參數派像素派。

參數派,就是各種追求CLIP(生成圖片與提示詞的一致性)、FID(生成圖片與訓練素材的一致性)等這些可以用算法來(lái)評價(jià)的參數,通過(guò)優(yōu)化參數實(shí)現霸榜。他們非常關(guān)注參數的規模,而忽視人類(lèi)的審美,因為審美很難用算法來(lái)評價(jià)。無(wú)界屬于像素派,也就是說(shuō)我們更注重在像素層面的優(yōu)化。我們非常關(guān)注人類(lèi)審美的反饋,也就是社區用戶(hù)的反饋。

說(shuō)到像素派,我們就要提到 Midjourney,它的審美是一直在線(xiàn)的,它也屬于像素派。我們和Midjourney有什么不一樣呢?

模型規劃不同

最大的區別就是我們在產(chǎn)品的模型規劃上有很大不同。Midjourney本質(zhì)上只有兩個(gè)模型,一個(gè)是對應通用的方向的Midjourney模型;另外是對應二次元的方向的Niji模型。我們不太一樣,我們把模型細分為汽車(chē)設計、產(chǎn)品設計、服裝設計、建筑設計等不同的垂直領(lǐng)域,同時(shí)要做到美學(xué)上比Midjourney表現更好。

上圖是無(wú)界AI與其他模型在生成效果上的評分示意圖,如果SDXL是平均分70分的模型,Midjourney的得分是80分。我們對美學(xué)的要求更高,在細分賽道的模型要做到80分以上,才能達到模型上線(xiàn)的標準。

美學(xué)風(fēng)格不同

無(wú)界 AI 與Midjourney 在理念上也不太一樣。Midjourney有非常強烈的美學(xué)特征,下圖中左邊的圖片很容易看出是Midjourney畫(huà)的,它有很強烈的MJ藝術(shù)風(fēng)格,個(gè)性化,具有辨識度。我們更強調的是模型藝術(shù)上的多樣性,因為很難用單一的標準來(lái)評價(jià)美,所以我們盡可能還原美。

產(chǎn)品體驗不同

如果把Midjourney比作米其林大廚,無(wú)界AI就是魔法師。米其林大廚把菜做到了90%,用戶(hù)只需要簡(jiǎn)單的熱一下,就可以直接享用。我們更希望用戶(hù)自己成為魔法師,在不同的瓶瓶罐罐里添入不同的材料、不同的配方,調配出專(zhuān)屬于自己的藝術(shù)風(fēng)格。

易用性和靈活性不同

Midjourney的產(chǎn)品易用性更高,只需要簡(jiǎn)單的提示詞就可以生成非常漂亮的圖片。無(wú)界AI產(chǎn)品的靈活度更高,支持圖片的后期處理。

我們在研發(fā)工藝美術(shù)模型時(shí),和十幾個(gè)高校和博物館進(jìn)行了學(xué)術(shù)上的交流。例如,在訓練過(guò)程中,我們生成了一幅畫(huà)琺瑯鼻煙壺的圖像,并向山東工藝美術(shù)學(xué)院韓明老師請教。他給出的指導意見(jiàn)是,胎底材料應為琉璃而非陶瓷,所以應該帶有一點(diǎn)半透明的質(zhì)感。我們迅速用工藝美術(shù)模型搭配玻璃質(zhì)感的LoRA,將權重設為0.8,很快就調出了韓明老師描述的質(zhì)感,這就是無(wú)界產(chǎn)品的靈活性體現。

靈活性和易用性是可以兼備的。雖然我們的用戶(hù)一開(kāi)始入手難度可能會(huì )比較高,但我們可以通過(guò)產(chǎn)品上的設計,比如工作流的機制,把所有參數設置都封裝好。我這里要提前透露一下,我們將來(lái)可能會(huì )支持Midjourney controller的一些應用,也就是說(shuō)用戶(hù)可以直接在無(wú)界上使用MJ的模型,同時(shí)可以獲得非常豐富的后期處理功能。

審美偏好不同

我們畫(huà)一張穿著(zhù)漢服的女孩圖像,MJ V6的效果確實(shí)非常驚艷,但畫(huà)出來(lái)是一個(gè)穿和服的女子,說(shuō)明它可能不是特別懂中國的審美。右邊是我用無(wú)界AI 的漢服模型畫(huà)的漢服女孩,得到了理想的效果。我們是一個(gè)國內的團隊,立足本土,所以在更懂中國的審美。

人類(lèi)反饋不同

在人類(lèi)反饋方面,Midjourney 就做了一個(gè)簡(jiǎn)單的處理,每生成4張圖片,用戶(hù)挑選最好的一張,這樣也是幫它做了反饋。無(wú)界 AI 基于A(yíng)PP可以收集到非常多元的用戶(hù)反饋數據,有點(diǎn)贊、收藏、同款、用戶(hù)的調研等等。

版權邏輯的不同

產(chǎn)品理念的不一樣,也會(huì )導致版權的邏輯不一樣。根據 Midjourney的版權規定,免費的用戶(hù)不可以商業(yè)使用,但付費用戶(hù)可以獲得商業(yè)使用授權。我們要注意到,這是一個(gè)商業(yè)使用的授權,不是版權著(zhù)作權,也不是所有權。

無(wú)界AI很早之前就宣布,凡是用無(wú)界AI創(chuàng )作的圖片,版權歸創(chuàng )作者所有,這個(gè)理念是比較超前的。我們每一張作品都是上鏈存證的,而且和杭州互聯(lián)網(wǎng)法院是打通的。當時(shí)存在較大爭議,人們認為用提示詞創(chuàng )作并不是原創(chuàng )。但現在已經(jīng)有越來(lái)越多的案例顯示,用戶(hù)在創(chuàng )作圖片的過(guò)程中有非常多智力的參與,應該尊重創(chuàng )作者的智力成果。比如前段時(shí)間互聯(lián)網(wǎng)AI圖片侵權第一案,北京互聯(lián)網(wǎng)法院就支持了這樣的觀(guān)念。

無(wú)界 AI 模型訓練成果

在過(guò)去一年,無(wú)界 AI 訓練了大概1000萬(wàn)張圖片素材。同時(shí),我們還和國內50多所高校、博物館都建立了數據上的合作。

我們來(lái)看一下無(wú)界 AI 訓練的模型:

1.漢服模型。這也是我們第一個(gè)出圈的模型,右邊這4張圖是我們的用戶(hù)結合水墨風(fēng)格創(chuàng )作的一組漢服圖片,參加了浙江省委宣傳部舉辦的“夢(mèng)溪杯”。

2.汽車(chē)設計模型。一言以蔽之,無(wú)論是100多年來(lái)汽車(chē)工業(yè)出現的所有汽車(chē)品牌和產(chǎn)品,還是現在的國產(chǎn)新勢力最新的車(chē)型,我們的汽車(chē)設計模型都能畫(huà)。即便是設計未來(lái)的概念車(chē)型,也不在話(huà)下。

3.工藝美術(shù)模型。這個(gè)模型我們是把市面上能收集到所有擁有數字博物館資源都訓練了一遍,相當于一個(gè)變化的國家版本館。國家版本館大家都知道,它有非常豐富的數字資源,但它的數字資源是一種靜態(tài)的展示。當工藝美術(shù)模型訓練過(guò)以后,它就變成了流動(dòng)的資源或者變化的資源,用戶(hù)可以非常方便地使用提示詞實(shí)現不同博物館館藏之間的聯(lián)名,把它們的風(fēng)格結合起來(lái)。

4. 壁紙模型。這個(gè)模型的使用率很高,看到這些圖片我就不禁感慨,以后誰(shuí)還會(huì )用那些圖庫的網(wǎng)站呢?用戶(hù)生成的每一張圖片都比它精美,而且著(zhù)作權還屬于自己。所以這就隱含著(zhù)一個(gè)邏輯,每個(gè)模型背后就對應著(zhù)一個(gè)一個(gè)行業(yè)的顛覆。

5. 私人影像模型。這個(gè)模型就是非常精準對標影樓這個(gè)場(chǎng)景或者行業(yè),凡是拍寫(xiě)真、證件照、婚紗照,以后都可以在家里直接進(jìn)行。影樓這個(gè)行業(yè)我認為也會(huì )被顛覆。

同樣我們最近也上線(xiàn)了“個(gè)性相機”,支持用戶(hù)使用一張照片訓練私人模型,實(shí)現快速換臉。最近我們和熱播大劇《神隱》合作,粉絲上傳一張自己的照片,就能穿上劇中女主的穿著(zhù)。

6. 產(chǎn)品美學(xué)模型。這個(gè)模型使用率同樣很高。下面這幾張圖形都是我創(chuàng )作的。左上角大家可以猜猜使用了什么樣的提示詞,其實(shí)非常簡(jiǎn)單,我大概是使用了“陰陽(yáng)、太極,減振、氣墊、發(fā)光材料,耐克鞋”這些提示詞,就可以出這樣的效果。這將是電商和產(chǎn)品設計行業(yè)的一個(gè)利器。

7. 建筑模型。不管是現代還是古典的建筑藝術(shù)風(fēng)格都可以出,也包括世界各地和國內各種城市的地標。

8.室內設計模型。也從草圖設計到建模方案呈現,短期內就能提供室內設計方案。

無(wú)界 AI 模型訓練的未來(lái)趨勢

對于模型訓練的未來(lái)趨勢,我認為有以下四點(diǎn),也是無(wú)界接下來(lái)要完善的:

1.對自然語(yǔ)言的支持會(huì )越來(lái)越好。因為大語(yǔ)言模型現在和文生圖模型之間還存在一些距離,文生圖模型大部分都是基于標簽式的提示詞體系。未來(lái),我們將升級文本編碼器,加強對自然語(yǔ)言的支持,無(wú)縫對接大語(yǔ)言模型。

2.支持文字生成和書(shū)法生成。一些英文字母和一些數字已經(jīng)可以畫(huà)了。但支持中國書(shū)法或者漢字的模型,目前比較少,這個(gè)將來(lái)也會(huì )實(shí)現。

3.視頻生成模型也會(huì )逐漸的成熟。

4.生成模型會(huì )越來(lái)越像搜索。這是一個(gè)什么概念呢?意味著(zhù)將來(lái)隨機瀏覽一個(gè)互聯(lián)網(wǎng)的網(wǎng)頁(yè),你看到一張非常的精美圖片,只要復制圖片下面一段描述性的文字放在無(wú)界模型中,就能畫(huà)出和同樣的藝術(shù)風(fēng)格和主題的圖片。

無(wú)界 AI 生態(tài)伙伴合作方式

無(wú)界目前和生態(tài)伙伴合作的一些模式:

1.API接入,支持合作伙伴直接調用無(wú)界AI已經(jīng)訓練好的模型。

2.模型訓練,支持合作伙伴對現有模型繼續優(yōu)化,微調出專(zhuān)屬于自己私有的模型。

3.產(chǎn)品與模型深度定制,無(wú)界AI全流程深度參與客戶(hù)產(chǎn)品與模型的定制,24 小時(shí)全天候技術(shù)支持。

最后,談一點(diǎn)對AIGC的感想。對于A(yíng)IGC,我認為可以用這樣一句話(huà)來(lái)概括,就是“以宏觀(guān)敘事,從微觀(guān)行事”。

宏觀(guān)敘事,AIGC這樣一個(gè)大浪潮不是以個(gè)人意志為轉移的,它是一種“灰犀牛”,是一種時(shí)代的潮流。我們抵觸和拒絕其實(shí)意義不大,最好的方式就是加入其中。在具體實(shí)踐當中,一定要從微觀(guān)行事去了解客戶(hù)具體的需求,去解決具體的問(wèn)題。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到