把「大模型」塞進(jìn)手機里,究竟有多難?
蘋(píng)果找了一條新思路。
能裝進(jìn)口袋的AppleGPT,它可能比你想象得更早成為現實(shí)。
據科技媒體MacRumors報道,蘋(píng)果公司的AI研究人員在近期發(fā)布的一篇研究論文里,提到一種創(chuàng )新的閃存技術(shù),該技術(shù)可能是為了探索“在有限的內存中運行大語(yǔ)言模型”(論文地址:2312.11514.pdf (arxiv.org))。
把AI大模型裝進(jìn)手機里,并不是什么稀奇的事情。自今年下半年起,國內手機廠(chǎng)商們紛紛透露自家大模型的消息,并表示未來(lái)的旗艦機型都會(huì )接入大模型。
不僅是手機,汽車(chē)、PC、平板甚至是學(xué)習機,都嘗試將大模型嵌入其中。而這些大模型的規模也,從十億級到百億級,甚至千億級。
不過(guò)發(fā)布會(huì )的演示雖多,實(shí)際測試下來(lái)真正驚艷的其實(shí)并不多。
例如一些所謂的手機大模型產(chǎn)品,無(wú)論是回答問(wèn)題、生成一段文本或是圖畫(huà),體驗感都遠遠不及網(wǎng)頁(yè)側的GPT產(chǎn)品。
手機AI大模型,難在硬件
早在ChatGPT誕生前,智能手機上的語(yǔ)音助手們,其實(shí)就已經(jīng)擁有人機交互、實(shí)時(shí)語(yǔ)音交流等能力。例如Siri、小愛(ài)、小藝等產(chǎn)品,它們在用戶(hù)與進(jìn)行對話(huà)后,即可完成一些簡(jiǎn)單操作指令。
可只要問(wèn)題稍微復雜一點(diǎn),這些語(yǔ)音助手就會(huì )變成“人工智障”,無(wú)法理解用戶(hù)的真實(shí)意圖。
此外,這些語(yǔ)音助手的功能很單一,無(wú)論是專(zhuān)注做語(yǔ)音功能,還是打造成一款全能性的應用,使用反饋都很一般。
隨著(zhù)大模型產(chǎn)品的成熟,AI的效率得到進(jìn)化,原本“不聰明”的語(yǔ)音助手們終于有望像ChatGPT回答復雜的問(wèn)題,大大提高智能手機的可玩性——這本是手機廠(chǎng)商們急于落地AI大模型技術(shù)的初衷。
而從實(shí)際體驗來(lái)看,手機大模型應用的體驗感并沒(méi)有想象中驚艷,各種功能都不及網(wǎng)頁(yè)側。
我們以小米大模型為例,在演講中,雷軍表示,小米的突破方向是輕量化和本地部署,也就是所謂“端側大模型”。
而想要運行起來(lái),還少不了本地處理器。
在小米發(fā)布自研大模型之前,高通推出了新一代移動(dòng)平臺驍龍8 Gen 3。該處理器除了提升各方面性能以外,最重要的是引入了全新的Hexagon NPU處理器,將AI總算力推到了73TOPS,支持終端側AI及生成式AI性能。
按高通表示,新處理器在終端設備上首次實(shí)現了運行100億參數的模型,并且針對70億參數LLM每秒能夠生成20個(gè)token——這意味著(zhù)目前的各種主流LLM都可以在手機端正常運行。
但實(shí)際情況是,小米AI大模型MiLM推出了6B(64億)參數,1.3B(13億)參數兩個(gè)版本,只有更小巧的1.3B參數版本被塞進(jìn)手機。
在采訪(fǎng)國內大模型初創(chuàng )公司智子引擎時(shí),他們提出過(guò)一個(gè)思路——針對芯片硬件側,不管是大模型的訓練和推理,除了要考慮算力的問(wèn)題外,還要關(guān)注數據處理的存儲量的問(wèn)題。
像 ChatGPT 和Claude 這樣基于LLM的聊天機器人,其實(shí)非常耗費數據和內存,通常需要大量?jì)却娌拍苓\行,這對于 iPhone 等內存容量有限的設備來(lái)說(shuō)是一個(gè)挑戰。
而在A(yíng)I 模型不斷膨脹的同時(shí),內存廠(chǎng)商的增長(cháng)卻當前的需求,造成了“內存墻”問(wèn)題。
因此在蘋(píng)果AI研究人員的論文里,作者別出心裁地提出針對閃存進(jìn)行改進(jìn),從而繞過(guò)限制,從而移動(dòng)設備支持運行超出自身內存規模的模型。
至于解決方法,一個(gè)是Windowing (窗口化),通過(guò)重用先前激活的神經(jīng)元來(lái)戰略性地減少數據傳輸,
第二個(gè)是Row-Column Bundling(行列捆綁),根據閃存的順序數據訪(fǎng)問(wèn)強度量身定制,增加了從閃存讀取的數據塊的大小。
由于這項技術(shù)還停留在論文層面,我們只能從輪數據上得到反饋。
數據顯示,測試LLM的推理速度在A(yíng)pple M1 Max CPU上提高了4-5倍,在GPU上提高了20-25倍,效果還是非常明顯。
最后,論文作者總結到:“這一突破對于在資源有限的環(huán)境中部署先進(jìn)的LLM尤為重要,擴大了它們的適用性和可訪(fǎng)問(wèn)性。
對于消費者來(lái)說(shuō),在解決了內存問(wèn)題后,就花費更少體驗更強的AI應用,手機廠(chǎng)商們也不用為模型參數犯愁。
當然,手機AI大模型面臨的難題不僅是內存,還有老生常談的“功耗問(wèn)題”,這一點(diǎn)也是未來(lái)手機處理器廠(chǎng)商需要重點(diǎn)考慮的問(wèn)題。
改做小模型,可行嗎?
在解決硬件問(wèn)題之前,還有一些手機廠(chǎng)商采用云端大模型接入的方式。
雖然這種云端協(xié)同的方式可以讓手機接入更大參數的大模型,但用戶(hù)每一次使用應用時(shí)都會(huì )產(chǎn)生費用,而當國內所有用戶(hù)使用大模型應用的話(huà),一年下來(lái)也是一筆不少的開(kāi)支。
因此在這兩種路徑外,一些AI公司開(kāi)始探索起小模型(SLM)的潛力。
例如微軟,目前在生成式AI戰略上出現了180度大轉變,推出多款小模型。
就在本月,微軟發(fā)布了27億參數規模的小語(yǔ)言模型Phi-2,經(jīng)研究人員測試,該模型在參數規模小于130億的模型中,展示了最先進(jìn)性能。
以高質(zhì)量的“小數據”挑戰“大模型”,這是小模型的特點(diǎn)之一。除此以外,因為參數規模足夠小,Phi-2可以在筆記本電腦、手機等移動(dòng)設備上運行。
隨著(zhù)越來(lái)越多的廠(chǎng)商開(kāi)始探索在手機等移動(dòng)設備上部署大模型,微軟的小模型產(chǎn)品可以用憑借更加出色的性能搶先占領(lǐng)移動(dòng)市場(chǎng)。
除了微軟以外,一些初創(chuàng )AI公司也選擇從小模型入局。
例如號稱(chēng)歐洲版OpenAI的Mistral AI,他們推出的開(kāi)源模型Mistral 7B,就是一款非常有特點(diǎn)的小模型,僅僅用7B模型就達到了大部分大模型的水平。
而他們其實(shí)更看到B端企業(yè)客戶(hù)的需求,在保護企業(yè)的私有數據不被泄露和利用提前下,讓小模型成為更實(shí)用的企業(yè)版方案,這也非常符合歐洲當地企業(yè)的特點(diǎn)。
不過(guò)總的來(lái)說(shuō),小模型與大模型算是兩種不同類(lèi)型的產(chǎn)品,都有各自的價(jià)值,不存在取代關(guān)系。
或許在未來(lái)的移動(dòng)設備上,大模型和小模型都能有所作為。但就目前來(lái)看,“手機AI大模型”還要很多難題亟待解決。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
