
工作站才是端側(cè)大模型的“快樂老家”

難道端側(cè)大模型只和手機相關(guān)嗎?
你在Mac上召喚過Siri嗎?我反正一次也沒有過。
這個被稱為AI界“老前輩”的虛擬助理,在iPhone上的人氣就不溫不火,Mac上更是毫無存在感。然而ChatGPT出現(xiàn)后,它在手機上僅有的一點存在感也被進一步拉低了。
眼看就要到11月,ChatGPT上線一周年的日子也不遠了。這一年我們見識了生成式人工智能驚人的迭代速度,也讓大模型幾乎貫穿了這一整年的熱門話題。從一開始如何用ChatGPT到“百模大戰(zhàn)”,再到行業(yè)大模型,如今終于討論到端側(cè)大模型,可主角卻是手機?甚至還有人為此感嘆:“2024年將是端側(cè)大模型元年”……
等等!難道“端側(cè)大模型”只包括手機嗎?
大家恐怕早就忘了,工作站作為一種專業(yè)的高性能終端設(shè)備,在更早的時候就已經(jīng)承載了大模型的應(yīng)用。當(dāng)前的工作站已經(jīng)可以勝任部分對算力要求不是很高的輕度訓(xùn)練工作,所以來說,運行更不會是什么問題。
當(dāng)然,包括工作站在內(nèi),任何桌面設(shè)備都擁有一個強大的互聯(lián)網(wǎng)入口——網(wǎng)頁瀏覽器,你可以用它訪問各種在線大模型服務(wù),但是和本地部署大模型相比,在線服務(wù)還是有太多限制:
生成數(shù)量,很多在線服務(wù)需要消耗大量的算力資源,同時也需要依靠收入來維持運營,所以通常會對免費用戶采取各種限制措施。例如免費版ChatGPT只能使用GPT 3.5生成的內(nèi)容,而且限制速度。如果使用工作站本地部署,只需要消耗本地算力資源,當(dāng)然也無需進一步的額外付費。
自由度,在線服務(wù)需要考慮到所在云服務(wù)的技術(shù)、條款、各地法規(guī)限制,有時用戶生成內(nèi)容可能被提醒違規(guī),有的付費服務(wù)也會遇到生成速度緩慢、卡頓、生成失敗等問題,用戶能做的也只有刷新頁面、重新輸入指令。使用工作站本地部署的大模型,可以盡情發(fā)揮想象,會影響體驗的因素通常只有硬件配置了。
生成時間,在線服務(wù)需要經(jīng)由廣域網(wǎng)傳輸指令和生成內(nèi)容,不僅受云服務(wù)的性能影響,網(wǎng)絡(luò)訪問速度也是影響生成速度的另一個關(guān)鍵因素,如果是免費用戶,或是服務(wù)使用人數(shù)過多時,可能還需要排隊。使用工作站本地部署則不需要考慮這些問題,如果指令包含一些敏感信息,在本地操作也是更安全的方式。
本地部署大模型有這么多好處,所以一些略懂技術(shù)知識的專業(yè)工作者也已經(jīng)嘗試在自己的工作站上部署大模型了。目前可以在工作站上部署的大模型已經(jīng)有很多,Stable Diffusion和Llama 2就是最知名的兩個。
在文生圖領(lǐng)域,Stable Diffusion的名字很響亮,母公司Stability AI還陸續(xù)開源了Stable DiffusionV1、StableLM、Stable Diffusion XL等模型,更讓它在文生圖領(lǐng)域站穩(wěn)腳跟。
對于個人用戶來說,在工作站上部署和使用Stable Diffusion略有門檻,而且你的設(shè)備必須使用NVIDIA顯卡,至少需要GT1060,顯存在4G以上,設(shè)備的內(nèi)存要在16G或以上,運行Windows 10或Windows 11系統(tǒng),安裝只需要執(zhí)行以下三步:
配置環(huán)境,你需要創(chuàng)建Python環(huán)境,在基于此創(chuàng)建Stable Diffusion的用戶界面,安裝cuda等等操作;
配置Stable Diffusion,你需要下載源碼,克隆Stable Diffusion WebUI項目,下載Stable Diffusion訓(xùn)練模型;
執(zhí)行Stable Diffusion,通過運行Stable Diffusion WebUI就能開始你的AI繪圖之旅啦!
Stable Diffusion在圖像生成領(lǐng)域大顯身手的同時,Stability AI并沒有閑下來,甚至開始涉足聊天機器人領(lǐng)域。今年8月,Stability AI推出一款名為“Stable Chat”的聊天機器人,功能類似OpenAI的ChatGPT,不過它采用的大語言模型Stable Beluga則是以兩代Llama為基礎(chǔ)開發(fā)的。
Llama是Meta推出的大語言模型,可以理解和生成各種領(lǐng)域的自然語言文本,由于是一款開源產(chǎn)品,Llama 2也被魔改成了各種版本的大語言模型。和Stable Diffusion一樣,你也可以把它部署在工作站上使用。
運行Llama 2同樣需要使用NVIDIA顯卡,最常見的是使用GeForce RTX 3090,擁有24GB內(nèi)存,可以運行4位量化的LLaMA 30B模型,每秒大約處理4到10個令牌。在Windows系統(tǒng)安裝需要執(zhí)行下面這些步驟:
下載模型,你需要先在Meta官網(wǎng)填寫資料并獲取密鑰,然后在LLaMA的GitHub庫來克隆項目庫,運行download.sh腳本,輸入密鑰之后才能獲取模型的文件;
轉(zhuǎn)換模型,使用text-generation-webui方式部署,但由于格式不同,則需要先進行轉(zhuǎn)換;
搭建text-generation-webui,在Github克隆text-generation-webui的項目,將huggingface格式文件放入models中,命名一下文件夾,就完成部署了。
這時候你需要通過命令行執(zhí)行text-generation-webui來與Llama2模型對話,也可以進一步利用text-generation-webui的API,使Llama 2能夠在YourChat客戶端上執(zhí)行。
本地部署Llama 2相當(dāng)于在你的設(shè)備里安裝了一個反應(yīng)迅速,并且可以暢所欲言的聊天機器人。的確,你也可以在Mac上和Siri暢所欲言,只是它未必能給你很好的回應(yīng)。
不過,要只是把它與Siri這樣的虛擬助理做對比,就太屈才了!Mac上的Siri幾乎沒什么存在感,手機上的也沒強多少。你有沒有發(fā)現(xiàn)蘋果這兩年都沒怎么提Siri了?其實在ChatGPT出現(xiàn)后,就已經(jīng)有傳聞稱蘋果正在給Siri憋個大招,這個“大招”就是端側(cè)大模型。
雖然很多手機廠商都在探索端側(cè)大模型,但至少從現(xiàn)階段來看,在專業(yè)領(lǐng)域的應(yīng)用上,手機端側(cè)大模型還難以復(fù)制工作站上的體驗,畢竟兩者之間的算力和價格都相差太過懸殊。
工作站價格不菲,使用工作站部署的大模型,能做到的也遠不止于簡單的對話,它還可以用于災(zāi)難響應(yīng)、交通管理、醫(yī)療咨詢等領(lǐng)域。遺憾的是,目前這些大模型的部署依然存在一定的技術(shù)門檻,甚至連啟動都要通過命令行完成,對于沒有相關(guān)技術(shù)背景的使用者而言,體驗簡直一塌糊涂。這種時候,像YourChat這樣的產(chǎn)品簡直就像一縷曙光,讓習(xí)慣使用圖形用戶界面的一般人可以在一個“正常”的窗口中與Llama 2對話。
相信伴隨著端側(cè)大模型越來越受到關(guān)注,未來一定會出現(xiàn)更便利的部署和使用方式,或是像Autodesk、Adobe那樣融入到不同的軟件當(dāng)中,讓使用者把更多精力放在工作內(nèi)容上。
未來,當(dāng)工作站上的大模型在更多專業(yè)領(lǐng)域發(fā)揮作用時,那些部署在手機上的“瘦身版”大模型,也將真正成為消費級產(chǎn)品的智能中樞,不再是被遺忘的Siri。
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼
