搜索

把「大模型」塞進(jìn)手機里，究竟有多難？

jh 1年前 (2023-12-22)

蘋(píng)果找了一條新思路。

能裝進(jìn)口袋的AppleGPT，它可能比你想象得更早成為現實(shí)。

據科技媒體MacRumors報道，蘋(píng)果公司的AI研究人員在近期發(fā)布的一篇研究論文里，提到一種創(chuàng )新的閃存技術(shù)，該技術(shù)可能是為了探索“在有限的內存中運行大語(yǔ)言模型”（論文地址：2312.11514.pdf (arxiv.org)）。

把AI大模型裝進(jìn)手機里，并不是什么稀奇的事情。自今年下半年起，國內手機廠(chǎng)商們紛紛透露自家大模型的消息，并表示未來(lái)的旗艦機型都會(huì )接入大模型。

不僅是手機，汽車(chē)、PC、平板甚至是學(xué)習機，都嘗試將大模型嵌入其中。而這些大模型的規模也，從十億級到百億級，甚至千億級。

不過(guò)發(fā)布會(huì )的演示雖多，實(shí)際測試下來(lái)真正驚艷的其實(shí)并不多。

例如一些所謂的手機大模型產(chǎn)品，無(wú)論是回答問(wèn)題、生成一段文本或是圖畫(huà)，體驗感都遠遠不及網(wǎng)頁(yè)側的GPT產(chǎn)品。

手機AI大模型，難在硬件

早在ChatGPT誕生前，智能手機上的語(yǔ)音助手們，其實(shí)就已經(jīng)擁有人機交互、實(shí)時(shí)語(yǔ)音交流等能力。例如Siri、小愛(ài)、小藝等產(chǎn)品，它們在用戶(hù)與進(jìn)行對話(huà)后，即可完成一些簡(jiǎn)單操作指令。

可只要問(wèn)題稍微復雜一點(diǎn)，這些語(yǔ)音助手就會(huì )變成“人工智障”，無(wú)法理解用戶(hù)的真實(shí)意圖。

此外，這些語(yǔ)音助手的功能很單一，無(wú)論是專(zhuān)注做語(yǔ)音功能，還是打造成一款全能性的應用，使用反饋都很一般。

隨著(zhù)大模型產(chǎn)品的成熟，AI的效率得到進(jìn)化，原本“不聰明”的語(yǔ)音助手們終于有望像ChatGPT回答復雜的問(wèn)題，大大提高智能手機的可玩性——這本是手機廠(chǎng)商們急于落地AI大模型技術(shù)的初衷。

而從實(shí)際體驗來(lái)看，手機大模型應用的體驗感并沒(méi)有想象中驚艷，各種功能都不及網(wǎng)頁(yè)側。

我們以小米大模型為例，在演講中，雷軍表示，小米的突破方向是輕量化和本地部署，也就是所謂“端側大模型”。

而想要運行起來(lái)，還少不了本地處理器。

在小米發(fā)布自研大模型之前，高通推出了新一代移動(dòng)平臺驍龍8 Gen 3。該處理器除了提升各方面性能以外，最重要的是引入了全新的Hexagon NPU處理器，將AI總算力推到了73TOPS，支持終端側AI及生成式AI性能。

按高通表示，新處理器在終端設備上首次實(shí)現了運行100億參數的模型，并且針對70億參數LLM每秒能夠生成20個(gè)token——這意味著(zhù)目前的各種主流LLM都可以在手機端正常運行。

但實(shí)際情況是，小米AI大模型MiLM推出了6B（64億）參數，1.3B（13億）參數兩個(gè)版本，只有更小巧的1.3B參數版本被塞進(jìn)手機。

在采訪(fǎng)國內大模型初創(chuàng )公司智子引擎時(shí)，他們提出過(guò)一個(gè)思路——針對芯片硬件側，不管是大模型的訓練和推理，除了要考慮算力的問(wèn)題外，還要關(guān)注數據處理的存儲量的問(wèn)題。

像 ChatGPT 和Claude 這樣基于LLM的聊天機器人，其實(shí)非常耗費數據和內存，通常需要大量?jì)却娌拍苓\行，這對于 iPhone 等內存容量有限的設備來(lái)說(shuō)是一個(gè)挑戰。

而在A(yíng)I 模型不斷膨脹的同時(shí)，內存廠(chǎng)商的增長(cháng)卻當前的需求，造成了“內存墻”問(wèn)題。

因此在蘋(píng)果AI研究人員的論文里，作者別出心裁地提出針對閃存進(jìn)行改進(jìn)，從而繞過(guò)限制，從而移動(dòng)設備支持運行超出自身內存規模的模型。

至于解決方法，一個(gè)是Windowing （窗口化），通過(guò)重用先前激活的神經(jīng)元來(lái)戰略性地減少數據傳輸，

第二個(gè)是Row-Column Bundling（行列捆綁），根據閃存的順序數據訪(fǎng)問(wèn)強度量身定制，增加了從閃存讀取的數據塊的大小。

由于這項技術(shù)還停留在論文層面，我們只能從輪數據上得到反饋。

數據顯示，測試LLM的推理速度在A(yíng)pple M1 Max CPU上提高了4-5倍，在GPU上提高了20-25倍，效果還是非常明顯。

最后，論文作者總結到：“這一突破對于在資源有限的環(huán)境中部署先進(jìn)的LLM尤為重要，擴大了它們的適用性和可訪(fǎng)問(wèn)性。

對于消費者來(lái)說(shuō)，在解決了內存問(wèn)題后，就花費更少體驗更強的AI應用，手機廠(chǎng)商們也不用為模型參數犯愁。

當然，手機AI大模型面臨的難題不僅是內存，還有老生常談的“功耗問(wèn)題”，這一點(diǎn)也是未來(lái)手機處理器廠(chǎng)商需要重點(diǎn)考慮的問(wèn)題。

改做小模型，可行嗎？

在解決硬件問(wèn)題之前，還有一些手機廠(chǎng)商采用云端大模型接入的方式。

雖然這種云端協(xié)同的方式可以讓手機接入更大參數的大模型，但用戶(hù)每一次使用應用時(shí)都會(huì )產(chǎn)生費用，而當國內所有用戶(hù)使用大模型應用的話(huà)，一年下來(lái)也是一筆不少的開(kāi)支。

因此在這兩種路徑外，一些AI公司開(kāi)始探索起小模型（SLM）的潛力。

例如微軟，目前在生成式AI戰略上出現了180度大轉變，推出多款小模型。

就在本月，微軟發(fā)布了27億參數規模的小語(yǔ)言模型Phi-2，經(jīng)研究人員測試，該模型在參數規模小于130億的模型中，展示了最先進(jìn)性能。

以高質(zhì)量的“小數據”挑戰“大模型”，這是小模型的特點(diǎn)之一。除此以外，因為參數規模足夠小，Phi-2可以在筆記本電腦、手機等移動(dòng)設備上運行。

隨著(zhù)越來(lái)越多的廠(chǎng)商開(kāi)始探索在手機等移動(dòng)設備上部署大模型，微軟的小模型產(chǎn)品可以用憑借更加出色的性能搶先占領(lǐng)移動(dòng)市場(chǎng)。

除了微軟以外，一些初創(chuàng )AI公司也選擇從小模型入局。

例如號稱(chēng)歐洲版OpenAI的Mistral AI，他們推出的開(kāi)源模型Mistral 7B，就是一款非常有特點(diǎn)的小模型，僅僅用7B模型就達到了大部分大模型的水平。

而他們其實(shí)更看到B端企業(yè)客戶(hù)的需求，在保護企業(yè)的私有數據不被泄露和利用提前下，讓小模型成為更實(shí)用的企業(yè)版方案，這也非常符合歐洲當地企業(yè)的特點(diǎn)。

不過(guò)總的來(lái)說(shuō)，小模型與大模型算是兩種不同類(lèi)型的產(chǎn)品，都有各自的價(jià)值，不存在取代關(guān)系。

或許在未來(lái)的移動(dòng)設備上，大模型和小模型都能有所作為。但就目前來(lái)看，“手機AI大模型”還要很多難題亟待解決。

最后，記得關(guān)注微信公眾號：鎂客網(wǎng)（im2maker），更多干貨在等你！

鎂客網(wǎng)

科技 | 人文 | 行業(yè)

微信ID：im2maker

長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

jh運營(yíng)

jh運營(yíng)

1039篇

文章總數

最新文章

電池管理芯片：新能源時(shí)代的 “心臟”

硅光子芯片，AMD不想缺席

NVIDIA 發(fā)布 2026 財年第一季度財務(wù)報告

宇樹(shù)人形機器人全球“格斗秀” ，AI“拳王”硬核破圈

代工巨頭臺積電，在歐洲設計汽車(chē)芯片

janpanese日本护士tube_色欲久久久天天天_国产精品国产三级区别第一集_一色屋任你精品亚洲香蕉