挖貝網(wǎng)> 產(chǎn)業(yè)> 詳情
大模型千億參數讓GPU顯存告急,英特爾居然讓你試試CPU

你敢想象:僅一臺僅裝備了單塊24G顯存消費級顯卡的系統,不但能跑滿(mǎn)血671B DeepSeek R1模型,還能帶來(lái)5并發(fā)51 Token/秒的性能(更細節數據見(jiàn)下圖),要知道這個(gè)性能水準,足以搞定像報告解讀或數據分析這類(lèi)對實(shí)時(shí)性要求不高的任務(wù)了。

這就是英特爾開(kāi)發(fā)的全新異構LLM服務(wù)方案流出的最新測試數據,這個(gè)方案基于HeteroFlow軟件框架,搭配了至強6性能核CPU(配MRDIMM內存,開(kāi)啟AMX加速)作為硬件基座,它的目標就是緩解 “滿(mǎn)血”大模型們面臨的存力困局。
眾所周知:大模型,是樂(lè )也“大參數”,痛也“大參數”——滿(mǎn)血版動(dòng)輒千億級的參數規模,再疊加GPU大佬們在顯存容量上的“精準”刀法,總能讓你錢(qián)包嚴重失血!如果你就搞一個(gè)節點(diǎn),即便GPU多卡插滿(mǎn),也就是能剛剛裝下海量參數,剩余的顯存會(huì )限制并發(fā)性能和上下文的長(cháng)度。咬咬牙上多個(gè)節點(diǎn),那就只能是……把牙咬碎,因為付出翻倍。

而現在,有了HeteroFlow框架的加持,如果你用的是MoE類(lèi)大模型,且選擇了英特爾的至強6性能核CPU來(lái)做機頭處理器,那么恭喜你,破局方法來(lái)了!
當然這個(gè)方法可能會(huì )顛覆你“AI讓CPU走開(kāi)”,或者“AI應用中CPU只是GPU小助手”的觀(guān)念。但這個(gè)方法,恰恰是充分利用了GPU和CPU各自的優(yōu)勢——GPU算力強,CPU內存大。HeteroFlow的工作原理就是把Attention、Dense MLP這些算力敏感型的,也是高價(jià)值的任務(wù)留給高算力的GPU,但把MoE這種需要大存力的任務(wù),部分或全部卸載給CPU+大容量的內存。
這種方法的終極奧義,并不是說(shuō)CPU比GPU更重要,或者你不需要GPU了,而是有了CPU的分擔與協(xié)助,GPU的工作更有意義了——它能把其成本高昂的算力和顯存全用在榨取并發(fā)性能與上下文長(cháng)度上,正所謂“好鋼用在刀刃上”,讓整個(gè)系統不僅性能收益明顯,投資回報率也是原地起飛。
接下來(lái),讓我們瞧瞧HeteroFlow是怎樣具體干活的:
一、卸載
對AI任務(wù)做智能拆分,把部分或全部MoE負載移到CPU上,讓GPU更專(zhuān)注算力密集型任務(wù),細節如下圖。

二、調度
通過(guò)Pipelined Scheduling設計,讓CPU與GPU在各自承載的子任務(wù)間實(shí)現無(wú)縫銜接,最大化榨取它們各自的潛能,如下圖:

三、加速
雖然至強CPU沒(méi)有GPU那么強的AI加速算力,但它還是有自己的看家本領(lǐng)——英特爾AMX(高級矩陣擴展技術(shù),有人將其比擬為“CPU里的Tensor Core”),它能為MoE任務(wù)涉及的計算提供加速。如果你對AMX技術(shù)沒(méi)有那么了解,可以借下面兩張圖快速了解一下它的核心組件與架構,以及加速能力。

如果你比較細心,一定注意到我們在前文提到的是HeteroFlow框架 +至強6 性能核CPU這個(gè)組合,推薦這款CPU的原因很簡(jiǎn)單,因為它內置AMX技術(shù),且主流型號(SKU),特別是用于機頭的SKU能解鎖對MRDIMM內存(8000/8800)的支持,幾乎是目前市面上能同時(shí)兼顧內存的大容量與高帶寬的惟一選擇。
如果你還意猶未盡,覺(jué)得前文測試場(chǎng)景里的“低配”型系統和它實(shí)現的性能,還遠遠不能滿(mǎn)足你一些更加“高大上”的需求,先別急,因為英持爾正在測試HeteroFlow+至強6的另外兩種應用場(chǎng)景:
在更多節點(diǎn)的、中量級的系統中,瞧它能不能把MoE中的“冷專(zhuān)家”(不常被激活的專(zhuān)家)卸載到CPU上,盡可能提升這類(lèi)系統的并發(fā)度和拓展其上下文長(cháng)度;
在更大或特大規模的AI集群中,當GPU出現單卡故障時(shí),用CPU暫時(shí)頂一下,保障集群的穩定運行。
由衷期待這兩個(gè)新場(chǎng)景能盡快落地,并有性能或性?xún)r(jià)比上的優(yōu)異表現供大家分享。你可以訪(fǎng)問(wèn)英特爾官網(wǎng)了解更多基于HeteroFlow框架的異構LLM服務(wù)方案的細節,或者聯(lián)系英特爾官方得到英特爾相關(guān)技術(shù)專(zhuān)家的支持。
誰(shuí)說(shuō)CPU只是GPU的小助手?用至強? 6高存力搞定MoE卸載!

想Get基于HeteroFlow的大模型異構新方案?
歡迎訪(fǎng)問(wèn)英特爾官網(wǎng),即刻揭秘!
相關(guān)閱讀
- 王健坤:光伏板下的“找茬大師”,綠色能源的幕后守護者
- 鯨鴻動(dòng)能系列營(yíng)銷(xiāo)案例正式入庫復旦管院案例中心,開(kāi)啟產(chǎn)學(xué)融合新路徑
- 寶豐集團·燕寶基金會(huì )在中國人民大學(xué)設立燕寶獎學(xué)金護航學(xué)子成長(cháng)
- 企業(yè)如何做號碼認證?號碼認證流程和服務(wù)商推薦選擇
- 賽力斯集團與中信集團簽署戰略合作協(xié)議
- 沙城之巔的智謀與情義!對話(huà)996傳奇盒子家族賽三強指揮與靈魂主播
- 大模型千億參數讓GPU顯存告急,英特爾居然讓你試試CPU
- vivo成為博鰲亞洲論壇2026年戰略合作伙伴
- 2024年宜人智科ESG報告發(fā)布,科技向善成果斐然
- 宜信唐寧揭示AI進(jìn)化新方向:降本與暖心并重
推薦閱讀
快訊 更多
- 07-09 13:16 | 三重煥新,啟航未來(lái)——Pivotal中文品牌發(fā)布暨喬遷新址、新官網(wǎng)上線(xiàn)
- 04-10 11:21 | 為“首發(fā)經(jīng)濟”注入創(chuàng )新動(dòng)力,CMEF見(jiàn)證寬騰醫學(xué)影像技術(shù)革新
- 02-20 18:53 | 手機也要上HBM芯片?三星計劃推出移動(dòng)版HBM,預計首款產(chǎn)品2028年上市
- 12-30 16:40 | 國產(chǎn)首款DDR5內存問(wèn)世!價(jià)格戰開(kāi)啟,復制長(cháng)江存儲擊敗三星路徑!
- 12-30 16:36 | 華為手機回歸第一年:全年銷(xiāo)量或超4000萬(wàn)臺 有望憑借Mate 70在高端市場(chǎng)擊敗蘋(píng)果
- 11-26 18:19 | 眾興菌業(yè)擬與漣水縣人民政府簽訂《招商引資合同書(shū)》 擬投資設立漣水食用菌產(chǎn)業(yè)園項目
- 11-26 18:16 | 美芝股份中選vivo全球AI研發(fā)中心-精裝工程采購項目(標段二)
- 11-26 18:14 | 健之佳擬用不超1億回購公司股份 維護公司價(jià)值及股東權益
- 11-26 09:53 | 格靈深瞳收購深圳市國科億道科技有限公司部分股權并增資5000萬(wàn)
- 11-26 09:37 | 煒岡科技擬以1.49億購買(mǎi)衡所華威9.33%股權 華海誠科擬發(fā)行可轉債收購煒岡科技所持衡所華威股權
