把「大模型」塞進(jìn)手機里,究竟有多難?

jh 1年前 (2023-12-22)

蘋(píng)果找了一條新思路。

能裝進(jìn)口袋的AppleGPT,它可能比你想象得更早成為現實(shí)。

科技媒體MacRumors報道,蘋(píng)果公司的AI研究人員在近期發(fā)布的一篇研究論文里,提到一種創(chuàng )新的閃存技術(shù),該技術(shù)可能是為了探索“在有限的內存中運行大語(yǔ)言模型”(論文地址:2312.11514.pdf (arxiv.org))。

把AI大模型裝進(jìn)手機里,并不是什么稀奇的事情。自今年下半年起,國內手機廠(chǎng)商們紛紛透露自家大模型的消息,并表示未來(lái)的旗艦機型都會(huì )接入大模型。

不僅是手機,汽車(chē)、PC、平板甚至是學(xué)習機,都嘗試將大模型嵌入其中。而這些大模型的規模也,從十億級到百億級,甚至千億級。

不過(guò)發(fā)布會(huì )的演示雖多,實(shí)際測試下來(lái)真正驚艷的其實(shí)并不多。

例如一些所謂的手機大模型產(chǎn)品,無(wú)論是回答問(wèn)題、生成一段文本或是圖畫(huà),體驗感都遠遠不及網(wǎng)頁(yè)側的GPT產(chǎn)品。

手機AI大模型,難在硬件

早在ChatGPT誕生前,智能手機上的語(yǔ)音助手們,其實(shí)就已經(jīng)擁有人機交互、實(shí)時(shí)語(yǔ)音交流等能力。例如Siri、小愛(ài)、小藝等產(chǎn)品,它們在用戶(hù)與進(jìn)行對話(huà)后,即可完成一些簡(jiǎn)單操作指令。

可只要問(wèn)題稍微復雜一點(diǎn),這些語(yǔ)音助手就會(huì )變成“人工智障”,無(wú)法理解用戶(hù)的真實(shí)意圖。

此外,這些語(yǔ)音助手的功能很單一,無(wú)論是專(zhuān)注做語(yǔ)音功能,還是打造成一款全能性的應用,使用反饋都很一般。

隨著(zhù)大模型產(chǎn)品的成熟,AI的效率得到進(jìn)化,原本“不聰明”的語(yǔ)音助手們終于有望像ChatGPT回答復雜的問(wèn)題,大大提高智能手機的可玩性——這本是手機廠(chǎng)商們急于落地AI大模型技術(shù)的初衷。

而從實(shí)際體驗來(lái)看,手機大模型應用的體驗感并沒(méi)有想象中驚艷,各種功能都不及網(wǎng)頁(yè)側。

我們以小米大模型為例,在演講中,雷軍表示,小米的突破方向是輕量化和本地部署,也就是所謂“端側大模型”。

而想要運行起來(lái),還少不了本地處理器。

在小米發(fā)布自研大模型之前,高通推出了新一代移動(dòng)平臺驍龍8 Gen 3。該處理器除了提升各方面性能以外,最重要的是引入了全新的Hexagon NPU處理器,將AI總算力推到了73TOPS,支持終端側AI及生成式AI性能。

按高通表示,新處理器在終端設備上首次實(shí)現了運行100億參數的模型,并且針對70億參數LLM每秒能夠生成20個(gè)token——這意味著(zhù)目前的各種主流LLM都可以在手機端正常運行。

但實(shí)際情況是,小米AI大模型MiLM推出了6B(64億)參數,1.3B(13億)參數兩個(gè)版本,只有更小巧的1.3B參數版本被塞進(jìn)手機。

在采訪(fǎng)國內大模型初創(chuàng )公司智子引擎時(shí),他們提出過(guò)一個(gè)思路——針對芯片硬件側,不管是大模型的訓練和推理,除了要考慮算力的問(wèn)題外,還要關(guān)注數據處理的存儲量的問(wèn)題。

像 ChatGPT 和Claude 這樣基于LLM的聊天機器人,其實(shí)非常耗費數據和內存,通常需要大量?jì)却娌拍苓\行,這對于 iPhone 等內存容量有限的設備來(lái)說(shuō)是一個(gè)挑戰。

而在A(yíng)I 模型不斷膨脹的同時(shí),內存廠(chǎng)商的增長(cháng)卻當前的需求,造成了“內存墻”問(wèn)題。

因此在蘋(píng)果AI研究人員的論文里,作者別出心裁地提出針對閃存進(jìn)行改進(jìn),從而繞過(guò)限制,從而移動(dòng)設備支持運行超出自身內存規模的模型。

至于解決方法,一個(gè)是Windowing (窗口化),通過(guò)重用先前激活的神經(jīng)元來(lái)戰略性地減少數據傳輸,

第二個(gè)是Row-Column Bundling(行列捆綁),根據閃存的順序數據訪(fǎng)問(wèn)強度量身定制,增加了從閃存讀取的數據塊的大小。

由于這項技術(shù)還停留在論文層面,我們只能從輪數據上得到反饋。

數據顯示,測試LLM的推理速度在A(yíng)pple M1 Max CPU上提高了4-5倍,在GPU上提高了20-25倍,效果還是非常明顯。

最后,論文作者總結到:“這一突破對于在資源有限的環(huán)境中部署先進(jìn)的LLM尤為重要,擴大了它們的適用性和可訪(fǎng)問(wèn)性。

對于消費者來(lái)說(shuō),在解決了內存問(wèn)題后,就花費更少體驗更強的AI應用,手機廠(chǎng)商們也不用為模型參數犯愁。

當然,手機AI大模型面臨的難題不僅是內存,還有老生常談的“功耗問(wèn)題”,這一點(diǎn)也是未來(lái)手機處理器廠(chǎng)商需要重點(diǎn)考慮的問(wèn)題。

改做小模型,可行嗎?

在解決硬件問(wèn)題之前,還有一些手機廠(chǎng)商采用云端大模型接入的方式。

雖然這種云端協(xié)同的方式可以讓手機接入更大參數的大模型,但用戶(hù)每一次使用應用時(shí)都會(huì )產(chǎn)生費用,而當國內所有用戶(hù)使用大模型應用的話(huà),一年下來(lái)也是一筆不少的開(kāi)支。

因此在這兩種路徑外,一些AI公司開(kāi)始探索起小模型(SLM)的潛力。

例如微軟,目前在生成式AI戰略上出現了180度大轉變,推出多款小模型。

就在本月,微軟發(fā)布了27億參數規模的小語(yǔ)言模型Phi-2,經(jīng)研究人員測試,該模型在參數規模小于130億的模型中,展示了最先進(jìn)性能。

以高質(zhì)量的“小數據”挑戰“大模型”,這是小模型的特點(diǎn)之一。除此以外,因為參數規模足夠小,Phi-2可以在筆記本電腦、手機等移動(dòng)設備上運行。

隨著(zhù)越來(lái)越多的廠(chǎng)商開(kāi)始探索在手機等移動(dòng)設備上部署大模型,微軟的小模型產(chǎn)品可以用憑借更加出色的性能搶先占領(lǐng)移動(dòng)市場(chǎng)。

除了微軟以外,一些初創(chuàng )AI公司也選擇從小模型入局。

例如號稱(chēng)歐洲版OpenAI的Mistral AI,他們推出的開(kāi)源模型Mistral 7B,就是一款非常有特點(diǎn)的小模型,僅僅用7B模型就達到了大部分大模型的平。

而他們其實(shí)更看到B端企業(yè)客戶(hù)的需求,在保護企業(yè)的私有數據不被泄露和利用提前下,讓小模型成為更實(shí)用的企業(yè)版方案,這也非常符合歐洲當地企業(yè)的特點(diǎn)。

不過(guò)總的來(lái)說(shuō),小模型與大模型算是兩種不同類(lèi)型的產(chǎn)品,都有各自的價(jià)值,不存在取代關(guān)系。

或許在未來(lái)的移動(dòng)設備上,大模型和小模型都能有所作為。但就目前來(lái)看,“手機AI大模型”還要很多難題亟待解決。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到