清湛人工智能研究院楊磊:AI賦能工業(yè)制造業(yè)
大模型之戰步入后半場(chǎng),行業(yè)逐漸達成共識,大模型的競爭,關(guān)鍵不在技術(shù),而在產(chǎn)業(yè)場(chǎng)景落地。
本文來(lái)源于微信公眾號:盛景新經(jīng)濟,作者盛小景;本站經(jīng)授權轉載。
大模型之戰步入后半場(chǎng),行業(yè)逐漸達成共識,大模型的競爭,關(guān)鍵不在技術(shù),而在產(chǎn)業(yè)場(chǎng)景落地。傳統產(chǎn)業(yè)何應對新一輪AI浪潮?AI如何幫助行業(yè)降本增效?企業(yè)如何利用大模型重塑業(yè)務(wù)?
8月15日,在中國人工智能學(xué)會(huì )、清華人工智能研究院、中關(guān)村企業(yè)家顧問(wèn)委員會(huì )、中關(guān)村100企業(yè)家俱樂(lè )部的大力支持下,由清湛人工智能研究院發(fā)起并主辦,由盛景網(wǎng)聯(lián)承辦的《大模型時(shí)代,AI賦能產(chǎn)業(yè)升級與引領(lǐng)》系列論壇于北京中關(guān)村全球科創(chuàng )路演中心成功舉辦。
論壇上,清湛人工智能研究院執行院長(cháng)楊磊博士發(fā)表了以“AI賦能工業(yè)制造業(yè)”為主題的主題演講。
以下為精華內容整理,enjoy~
歷史邁進(jìn)工業(yè)5.0
制造業(yè)是中國未來(lái)發(fā)展的必經(jīng)之路,這毋庸置疑。目前工業(yè) 4.0正在如火如荼地進(jìn)行,已深入應用到各行各業(yè),學(xué)者界和商業(yè)界對工業(yè)4.0的未來(lái)發(fā)展形勢總體上持樂(lè )觀(guān)態(tài)度。但是也有部分研究者及從業(yè)人員逐漸發(fā)現工業(yè)4.0在發(fā)展過(guò)程中過(guò)于側重生產(chǎn)制造流程的優(yōu)化和設備的自動(dòng)化水平的提升,而忽視了制造過(guò)程中最重要的參與者“人”這一主體。
直到今天才發(fā)現我們前面一直提“無(wú)人工廠(chǎng)”的好多路可能是走不通的。
在過(guò)去的5-10年里,我們一直在考慮一個(gè)問(wèn)題,如何發(fā)揮新機器的作用,從而替代人。然而,人的創(chuàng )造力是沒(méi)法替代的,如何和機器緊密結合在一起,這才應該是行業(yè)專(zhuān)家所做的工作。
歐洲提出工業(yè)5.0的概念,改變了以前“整個(gè)工廠(chǎng)是無(wú)人化”、“未來(lái)工廠(chǎng)只由,一個(gè)看門(mén)的人和一個(gè)看人的狗構成”認知。
在新的工業(yè)5.0人機體系中,更強調協(xié)作,包括機器的協(xié)作、系統和人的協(xié)作。
未來(lái),制造業(yè)的發(fā)展是以人為本,以持續生產(chǎn)為本。過(guò)去強調智能化、強調把人的環(huán)節剔除的說(shuō)法是不正確的。
工業(yè)背景下談大模型
過(guò)去三年中,大模型的應用已經(jīng)給很多行業(yè)領(lǐng)域創(chuàng )造了震撼的效果。斯坦福大學(xué)把目前下載數超過(guò)5萬(wàn)的大模型做了一個(gè)圖譜,超過(guò)15870個(gè)?;旧厦刻於加行碌拇竽P统霈F,為社會(huì )帶來(lái)了巨大的變化。大模型時(shí)代的起始最早可以追溯到2019年Google推出的T5大模型,直到GPT-4在22年底推出,23年初開(kāi)放測試后爆火。至此,真正進(jìn)入大模型的高速發(fā)展時(shí)期,也走了很多彎路。
值得注意的是,工業(yè)人工智能和商業(yè)人工智能有巨大的不同,吳恩達曾說(shuō),“在消費者軟件互聯(lián)網(wǎng)中,我們可以訓練一些機器學(xué)習模型來(lái)服務(wù)于十億用戶(hù)。在制造業(yè)中,你可能有10000家制造商建造10000個(gè)定制的人工智能模型。”即使是大模型時(shí)代,這種由于應用領(lǐng)域的差異化帶來(lái)的技術(shù)路線(xiàn)的不同也是長(cháng)期存在的。
當前的人工智能系統本質(zhì)上包括兩個(gè)主要組成部分:代碼和數據。如果我們從2006的深度學(xué)習元年計算,我們花了不到二十年的時(shí)間,從模型驅動(dòng)走向了數據驅動(dòng),又逐漸走向了更大規模數據的大模型時(shí)代。傳統的以模型為中心的人工智能專(zhuān)注于在給定一組固定數據的情況下,改進(jìn)代碼以獲得更好的結果。對于系統開(kāi)發(fā)的過(guò)程,更關(guān)注于代碼本身。而以數據驅動(dòng)的人工智能應用是通過(guò)將代碼視為不可更改的實(shí)體來(lái)提高數據質(zhì)量,以實(shí)現更好的結果。在以模型為中心的人工智能中,我們在優(yōu)化人工智能模型上花費的時(shí)間相對較多,而在以數據為中心的AI中,我們花在提高數據質(zhì)量上的時(shí)間相對較長(cháng)。
高質(zhì)量數據的重要性已愈發(fā)明顯。大型模型近年的進(jìn)展在很大程度上依賴(lài)于高質(zhì)量和豐富的訓練數據集。相比于GPT-2,GPT-3在模型架構上的改變微乎其微,更大的精力是投入到了收集更大、更高質(zhì)量的數據集來(lái)進(jìn)行訓練。例如,GPT-4與GPT-3的模型架構類(lèi)似,但使用了RLHF(來(lái)自人工反饋過(guò)程的強化學(xué)習)來(lái)生成用于微調的高質(zhì)量標注數據。
認識到這一現象,人工智能領(lǐng)域的權威學(xué)者吳承恩發(fā)起了“以數據為中心的AI”運動(dòng),這是一種新的理念,它主張在模型架構相對固定的前提下,通過(guò)提升數據的質(zhì)量和數量來(lái)提升整個(gè)模型的訓練效果。這其中包括添加數據標記、清洗和轉換數據、數據縮減、增加數據多樣性、持續監測和維護數據等。
因此,未來(lái)在大模型開(kāi)發(fā)中,數據成本所占的比例可能會(huì )逐步提高。這代表了一種理念的轉變,傳統的AI工程師需要了解的Python,就可以做個(gè)應用。后來(lái)需要學(xué)習pytorch框架來(lái)交付應用。但是現在,這已經(jīng)不夠了。
大模型落地需要新范式,新工具集。
大模型在工業(yè)場(chǎng)景的應用
生成式人工智能,特別是大型語(yǔ)言模型如ChatGPT,是目前在制造業(yè)內嶄露頭角的范式轉變。生成式人工智能可以利用現有數據來(lái)編造新的、獨特的數據集,而大模型則進(jìn)一步發(fā)展了這一概念,提供了無(wú)與倫比的能力來(lái)剖析和協(xié)調錯綜復雜的信息,并和人類(lèi)以自然語(yǔ)言對話(huà)互動(dòng)。
過(guò)去,所有的工廠(chǎng)業(yè)主都希望我們能夠做一臺機器,能把人替換下來(lái)。這個(gè)機器要比人聰明,比人便宜,而且沒(méi)有疲勞、沒(méi)有勞資糾紛。整個(gè)制造業(yè)一直朝著(zhù)這個(gè)方向努力,造一臺更聰明的機器,圍繞著(zhù)這臺機器我們要提供更聰明的感知,更聰明的計算能力,更聰明的執行能力、可以思索的能力。
清湛在過(guò)去兩年中,我們也是圍繞這條路線(xiàn)在走。我們提供了基于機器視覺(jué)+智能機器人的產(chǎn)線(xiàn)自動(dòng)化的平臺工具。
基于具身智能技術(shù),我們打造了低成本、更高效率的智能移動(dòng)機器人。圍繞著(zhù)海量的工業(yè)數據分析,我們面向市場(chǎng)交付了MLOps/LLMOps平臺。我們也嘗試把一些多模態(tài)技術(shù)落地在實(shí)際工業(yè)場(chǎng)景。包括用一些新的技術(shù)視覺(jué)視頻分析來(lái)做環(huán)境感知。我們一直在嘗試尋找一些新的方法、新的技術(shù)給制造業(yè)的行業(yè)的變革貢獻一些力量。但是,我們也是非常困惑于如何提供成本更低的、更為智能的系統服務(wù)于制造業(yè)產(chǎn)業(yè)。
事實(shí)上,隨著(zhù)生成式人工智能的到來(lái),尤其GPT-4的實(shí)際應用落地,讓我們看到了這場(chǎng)變革的新希望。
1.基于大模型的工業(yè)知識庫
以往在工廠(chǎng)里,通常是老師傅教新工人,把經(jīng)驗技藝都傳授出來(lái)。但是現在,找老師傅很難找到,因為產(chǎn)線(xiàn)上大部分是18歲以下和55歲以上的人,從業(yè)時(shí)間很短,他們沒(méi)有什么經(jīng)驗。同時(shí),產(chǎn)線(xiàn)上的工藝過(guò)程、設備操作也變得越來(lái)越復雜。整個(gè)產(chǎn)業(yè)都希望形成一個(gè)萬(wàn)能的專(zhuān)家系統或者知識圖譜來(lái)教大家。
事實(shí)上,這一點(diǎn)很多人都嘗試過(guò)但是很難做到。因為想圍繞動(dòng)態(tài)的、需求不斷變化的工業(yè)生產(chǎn)環(huán)境,想形成完備的知識系統是很難的。隱含的知識是無(wú)法預先挖掘出來(lái)的?,F在通過(guò)類(lèi)似OpenAI和Llama這類(lèi)基礎模型系統,我們很快就能夠形成一個(gè)具有海量常識性知識和垂直領(lǐng)域專(zhuān)業(yè)知識的知識庫系統,而且可以通過(guò)自然語(yǔ)言去對話(huà)。
2.基于大模型的產(chǎn)品研發(fā)
傳統上,產(chǎn)品設計師專(zhuān)注于產(chǎn)品概念和規格,而操作人員則負責生產(chǎn)任務(wù)。然而,大模型可以使設計過(guò)程信息更加透明,可以將一線(xiàn)操作人員的見(jiàn)解納入決策過(guò)程中。這些一線(xiàn)操作人員擁有實(shí)際生產(chǎn)過(guò)程的理解能力,能夠提出有價(jià)值的見(jiàn)解。大模型則能幫助將他們的想法轉化為可操作的設計建議。
通過(guò)分析操作人員的見(jiàn)解,大模型能夠生成考慮到實(shí)際因素和限制的設計,從而形成現實(shí)有效的解決方案。這種合作方式能培養操作人員的主人翁意識和參與感。由于制造設備和機器人系統中蘊含著(zhù)豐富的信息,因此大模型可以在產(chǎn)品設計和優(yōu)化方面發(fā)揮重要作用,可以將這些知識與市場(chǎng)趨勢、科學(xué)文獻、不斷變化的ESG考慮因素和客戶(hù)偏好相結合。
舉個(gè)例子,來(lái)自洛桑聯(lián)邦理工學(xué)院(EPFL)和美國羅切斯特大學(xué)的研究團隊開(kāi)發(fā)了一種能夠完成有機合成、藥物發(fā)現和材料設計等多種化學(xué)任務(wù)的語(yǔ)言模型代理 ChemCrow。該代理整合了 17 種由專(zhuān)家設計的工具,增強了其在化學(xué)領(lǐng)域的性能,并涌現出新的能力。到目前為止,ChemCrow 已經(jīng)自主設計了一種驅蟲(chóng)劑、三種有機催化劑以及合成其他相關(guān)分子。
在傳統的工業(yè)生產(chǎn)中,在一個(gè)材料發(fā)現過(guò)程中,很難快速通過(guò)系統來(lái)形成結果。以往,即使應用系統也需要很多跨專(zhuān)業(yè)的人,要求他們對各個(gè)知識都非常了解。但是現在通過(guò)這樣的一個(gè)系統,材料發(fā)現、化學(xué)發(fā)現的過(guò)程可以從數年縮短至幾個(gè)月、甚至是幾天。我們不需要有一個(gè)特別資深的化學(xué)老師或者是化學(xué)諾貝爾獎獲得者,就可以獲得很深邃的理解。
3.基于大模型的視覺(jué)應用
視覺(jué)數據大模型在工業(yè)中也開(kāi)始逐步應用于缺陷檢測、目標識別。依據以往用成千上萬(wàn)的圖片數據訓練出來(lái)的結果,基于預訓練模型調整,兩三天就能獲得比較高效的結果。眾所周知,視覺(jué)系統對于理解和推理視覺(jué)場(chǎng)景的組成特性至關(guān)重要。這個(gè)領(lǐng)域的挑戰在于對象之間的復雜關(guān)系、位置、歧義、以及現實(shí)環(huán)境中的變化等。作為人類(lèi),我們可以很輕松地借助各種模態(tài),包括但不僅限于視覺(jué)、語(yǔ)言、聲音等來(lái)理解和感知這個(gè)世界。隨著(zhù) Transformer 等關(guān)鍵技術(shù)的提出,以往看似獨立的各個(gè)方向也逐漸緊密地聯(lián)結到一起,組成了“多模態(tài)”的概念。
自 2021 年以來(lái),人們對結合視覺(jué)和語(yǔ)言模式的模型(也稱(chēng)為聯(lián)合視覺(jué)語(yǔ)言模型)越來(lái)越感興趣,例如OpenAI 的 CLIP。聯(lián)合視覺(jué)語(yǔ)言模型在圖像字幕、文本引導圖像生成和操作以及視覺(jué)問(wèn)答等極具挑戰性的任務(wù)中表現出了特別令人印象深刻的能力。該領(lǐng)域不斷發(fā)展,其在提高零樣本泛化能力方面的有效性也在不斷發(fā)展,從而產(chǎn)生了各種實(shí)際用例。
基于大模型的視覺(jué)應用,包括以Meta代表的各種對于圖片、視頻、音頻的“分割一切”的技術(shù),的確給現在生產(chǎn)線(xiàn)的視覺(jué)缺陷檢測、工業(yè)機器人的視覺(jué)伺服帶來(lái)個(gè)巨大的便利,也獲得了比傳統視覺(jué)方法更好的檢測結果。
4.基于大模型的產(chǎn)品外觀(guān)設計
產(chǎn)品外觀(guān)設計也是當前大模型的在工業(yè)里面的應用。通過(guò)生成式設計技術(shù)可以快速獲得新的產(chǎn)品設計。
生成設計是一個(gè)反復的設計過(guò)程,它涉及到一個(gè)將產(chǎn)生一定數量的符合某些約束條件的輸出的程序,以及一個(gè)將通過(guò)選擇特定的輸出或改變輸入值、范圍和分布來(lái)微調可行區域的設計者。設計者不需要是人,可以是測試環(huán)境中的測試程序或人工智能,例如生成式對抗網(wǎng)絡(luò )。隨著(zhù)時(shí)間的推移,設計者的設計目標變得更加明確,他們會(huì )在每次迭代中學(xué)習完善程序(通常涉及算法)。
清湛現在在努力和服裝生產(chǎn)商、包裝設計的合作伙伴在嘗試做一些努力。
5.基于大模型的生產(chǎn)
我們用到的大模型能力,更多是問(wèn)答、客服、做知識庫。如果僅僅把大模型的能力局限在這個(gè)領(lǐng)域,就把事情看簡(jiǎn)單了。我們都在探索,大模型除了聊天對話(huà)之外能夠呈現地更為“智能”的能力。
事實(shí)上,包括OpenAI、Meta、谷歌都在努力探索大模型的“智能自主代理”能力。未來(lái)“智能自主代理”可以像人一樣,不僅僅是有記憶(短期記憶和長(cháng)期記憶),而且可以形成規劃,對面臨的任務(wù)進(jìn)行“任務(wù)拆分”,同時(shí)系統可以像人一樣進(jìn)行“反思”和“自我評價(jià)”,像人一樣自主的選擇使用不同的“工具”去完成不同的“任務(wù)”。
如果大模型能夠有這樣的“智能”,是不是我們可以基于“大模型技術(shù)”去控制生產(chǎn)線(xiàn),自主的完成生產(chǎn)過(guò)程。我們在這樣思考的時(shí)候,事實(shí)上已經(jīng)開(kāi)始有團隊嘗試用“大模型”的智能機制完成整體的生產(chǎn)環(huán)節,替代掉產(chǎn)線(xiàn)的控制系統。
MIT和華盛頓大學(xué)的團隊在論文《大型語(yǔ)言模型如何幫助人類(lèi)進(jìn)行設計和制造?》,描述了借助于GPT自主的完成制造過(guò)程——通過(guò)GPT-4造一個(gè)柜子。
整個(gè)生產(chǎn)流程由用戶(hù)通過(guò)與GPT-4基于文本的方式交互,GPT-4自動(dòng)的提供設計規范,GPT-4同時(shí)可以將設計轉換為制造指令,并生成設計空間和設計變體、計算設計的性能,以及搜索基于性能的設計。GPT-4可以幫助生產(chǎn)過(guò)程自動(dòng)進(jìn)行采購尋源、供應商比價(jià)。這個(gè)做傳統的制造過(guò)程是個(gè)非常繁復的過(guò)程。通過(guò)基礎模型,可以在未來(lái)全自動(dòng)的完成包括采購、加工、庫存、銷(xiāo)售的整個(gè)生產(chǎn)流程。
事實(shí)上,這個(gè)僅僅是這方面的一個(gè)例子。微軟亞洲研究院的研究人員嘗試借助于基礎模型帶來(lái)的大量先驗知識,可以作為各種工業(yè)控制任務(wù)的豐富先驗知識來(lái)源。通過(guò)一個(gè)實(shí)際的空調溫度控制調節的任務(wù)作為驗證,研究結果表面GPT-4的性能與增強學(xué)習方法相當,可以代替經(jīng)典的自動(dòng)化控制方法。但樣本較少,技術(shù)債務(wù)較低,這表明了將基礎模型直接應用于工業(yè)控制任務(wù)的潛力??梢栽O想,未來(lái)對很多工業(yè)控制場(chǎng)景,可以直接由邊緣端的預置的基礎模型來(lái)發(fā)出指令,完成控制動(dòng)作。
6.基于大模型的機器人控制
基于大模型的機器控制的成果很多了,最為著(zhù)名的是李飛飛參與的《具有多模態(tài)提示的VIMA通用機器人操作》。我們看到,現在基于大模型的機器人控制,不僅僅完成對于環(huán)境的理解,還包括任務(wù)的自動(dòng)分解、自動(dòng)示教學(xué)習等等各種傳統方法無(wú)法完成的任務(wù)。
大模型在工業(yè)場(chǎng)景的應用
事實(shí)上,我們現在對大模型的能力還沒(méi)有充分認識清楚。何況,大模型技術(shù)本身也在快速發(fā)展。海量的數據進(jìn)行百億級別的參數訓練,這個(gè)是人類(lèi)歷史上前所未有的。
我相信在半年或一年之內,AIGC或者大模型會(huì )對制造業(yè),乃至于工業(yè)產(chǎn)業(yè)產(chǎn)生巨大的影響。而且,在未來(lái)數年內會(huì )有很多新的預訓練模型出新,圍繞著(zhù)工業(yè)產(chǎn)業(yè)提供更好的應用場(chǎng)景。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
