大模型千億參數(shù)讓GPU顯存告急，英特爾居然讓你試試CPU

2025/12/29 15:54:44

你敢想象：僅一臺僅裝備了單塊24G顯存消費級顯卡的系統(tǒng)，不但能跑滿血671B DeepSeek R1模型，還能帶來5并發(fā)51 Token/秒的性能（更細節(jié)數(shù)據(jù)見下圖），要知道這個性能水準，足以搞定像報告解讀或數(shù)據(jù)分析這類對實時性要求不高的任務了。

這就是英特爾開發(fā)的全新異構(gòu)LLM服務方案流出的最新測試數(shù)據(jù)，這個方案基于HeteroFlow軟件框架，搭配了至強6性能核CPU（配MRDIMM內(nèi)存，開啟AMX加速）作為硬件基座，它的目標就是緩解 “滿血”大模型們面臨的存力困局。

眾所周知：大模型，是樂也“大參數(shù)”，痛也“大參數(shù)”——滿血版動輒千億級的參數(shù)規(guī)模，再疊加GPU大佬們在顯存容量上的“精準”刀法，總能讓你錢包嚴重失血！如果你就搞一個節(jié)點，即便GPU多卡插滿，也就是能剛剛裝下海量參數(shù)，剩余的顯存會限制并發(fā)性能和上下文的長度。咬咬牙上多個節(jié)點，那就只能是……把牙咬碎，因為付出翻倍。

而現(xiàn)在，有了HeteroFlow框架的加持，如果你用的是MoE類大模型，且選擇了英特爾的至強6性能核CPU來做機頭處理器，那么恭喜你，破局方法來了！

當然這個方法可能會顛覆你“AI讓CPU走開”，或者“AI應用中CPU只是GPU小助手”的觀念。但這個方法，恰恰是充分利用了GPU和CPU各自的優(yōu)勢——GPU算力強，CPU內(nèi)存大。HeteroFlow的工作原理就是把Attention、Dense MLP這些算力敏感型的，也是高價值的任務留給高算力的GPU，但把MoE這種需要大存力的任務，部分或全部卸載給CPU+大容量的內(nèi)存。

這種方法的終極奧義，并不是說CPU比GPU更重要，或者你不需要GPU了，而是有了CPU的分擔與協(xié)助，GPU的工作更有意義了——它能把其成本高昂的算力和顯存全用在榨取并發(fā)性能與上下文長度上，正所謂“好鋼用在刀刃上”，讓整個系統(tǒng)不僅性能收益明顯，投資回報率也是原地起飛。

接下來，讓我們瞧瞧HeteroFlow是怎樣具體干活的：

一、卸載

對AI任務做智能拆分，把部分或全部MoE負載移到CPU上，讓GPU更專注算力密集型任務，細節(jié)如下圖。

二、調(diào)度

通過Pipelined Scheduling設計，讓CPU與GPU在各自承載的子任務間實現(xiàn)無縫銜接，最大化榨取它們各自的潛能，如下圖：

三、加速

雖然至強CPU沒有GPU那么強的AI加速算力，但它還是有自己的看家本領——英特爾AMX（高級矩陣擴展技術，有人將其比擬為“CPU里的Tensor Core”），它能為MoE任務涉及的計算提供加速。如果你對AMX技術沒有那么了解，可以借下面兩張圖快速了解一下它的核心組件與架構(gòu)，以及加速能力。

如果你比較細心，一定注意到我們在前文提到的是HeteroFlow框架 +至強6 性能核CPU這個組合，推薦這款CPU的原因很簡單，因為它內(nèi)置AMX技術，且主流型號（SKU），特別是用于機頭的SKU能解鎖對MRDIMM內(nèi)存（8000/8800）的支持，幾乎是目前市面上能同時兼顧內(nèi)存的大容量與高帶寬的惟一選擇。

如果你還意猶未盡，覺得前文測試場景里的“低配”型系統(tǒng)和它實現(xiàn)的性能，還遠遠不能滿足你一些更加“高大上”的需求，先別急，因為英持爾正在測試HeteroFlow+至強6的另外兩種應用場景：

在更多節(jié)點的、中量級的系統(tǒng)中，瞧它能不能把MoE中的“冷專家”（不常被激活的專家）卸載到CPU上，盡可能提升這類系統(tǒng)的并發(fā)度和拓展其上下文長度；
在更大或特大規(guī)模的AI集群中，當GPU出現(xiàn)單卡故障時，用CPU暫時頂一下，保障集群的穩(wěn)定運行。

由衷期待這兩個新場景能盡快落地，并有性能或性價比上的優(yōu)異表現(xiàn)供大家分享。你可以訪問英特爾官網(wǎng)了解更多基于HeteroFlow框架的異構(gòu)LLM服務方案的細節(jié)，或者聯(lián)系英特爾官方得到英特爾相關技術專家的支持。

誰說CPU只是GPU的小助手？用至強? 6高存力搞定MoE卸載！

想Get基于HeteroFlow的大模型異構(gòu)新方案？

歡迎訪問英特爾官網(wǎng)，即刻揭秘！

英特爾

97婷婷狠狠成人免费视频,国产精品亚洲精品日韩已满,高清国产一区二区三区,日韩欧美黄色网站,xxxxx黄在线观看,韩国一级淫片视频免费播放,99久久成人国产精品免费

大模型千億參數(shù)讓GPU顯存告急，英特爾居然讓你試試CPU

大模型千億參數(shù)讓GPU顯存告急，英特爾居然讓你試試CPU