近日,一年一度的Hotchips正式在斯坦福大學(xué)拉開帷幕。
據(jù)了解,Hotchips的全稱是A Symposium on High Performance Chips,于每年八月份在斯坦福大學(xué)舉行。不同于其他行業(yè)會議以學(xué)術(shù)研究為主,HotChips是一場產(chǎn)業(yè)界的盛會,各大處理器公司會在每年的會上展現(xiàn)他們最新的產(chǎn)品以及在研的產(chǎn)品。
進入大會的第二天,我們不但看到了來自英特爾、AMD、Arm這些傳統(tǒng)處理器巨頭的展示,還看到了存儲雙雄三星和SK海力士的分享。此外,RISC-V服務(wù)器芯片新貴Ventana也在本屆大會上分享了公司Veyron V1的細節(jié)。
在本文中,我們綜合了這些巨頭的產(chǎn)品,讓大家對當(dāng)前*的處理器設(shè)計理念有所了解。
英特爾公布下一代處理器細節(jié)
作為處理器領(lǐng)域當(dāng)之無愧的巨頭,英特爾在 Hot Chips 2023上分享了其下一代 Xeon 處理器 Granite Rapids 和 Sierra Forest的細節(jié)。根據(jù)之前的資料顯示,這兩款處理器將于 2024 年推出。英特爾此前曾在其數(shù)據(jù)中透露過這款處理器中心路線圖——最近一次更新是在今年 3 月。在Hot Chips上,該公司提供了更多關(guān)于芯片及其共享平臺的技術(shù)細節(jié)。
雖然英特爾至強處理器沒有“不重要”一代的說法,但由于引入了面積高效的 E 核,Granite Rapids 和 Sierra Forest 有望成為英特爾至強可擴展硬件生態(tài)系統(tǒng)最重要的更新之一。
自第 12代酷睿 (Alder Lake)以來,它已經(jīng)成為英特爾消費處理器的中流砥柱,而即將推出的第 6代至強可擴展平臺最終將把 E 核引入英特爾的服務(wù)器平臺。盡管與兩種核心類型混合在單個芯片中的消費類零件不同,英特爾正在采取純粹的同質(zhì)策略,為我們提供全 P 核 Granite Rapids 和全 E 核 Sierra Forest。
作為英特爾*供數(shù)據(jù)中心使用的E核至強可擴展芯片,Sierra Forest可以說是這兩款芯片中最重要的一款。恰如其分的是,它是英特爾基于 EUV 的intel 3 工藝節(jié)點的主導(dǎo)產(chǎn)品,也是*推出的至強處理器。據(jù)該公司稱,它仍有望在 2024 年上半年發(fā)布。與此同時,Granite Rapids 將“很快”落后于這一點,采用相同的 Intel 3 工藝節(jié)點。
由于英特爾計劃在一代中提供兩個截然不同的 Xeon,因此第六代 Xeon 可擴展平臺的一個重要因素是兩個處理器將共享相同的平臺。這意味著相同的插槽、相同的內(nèi)存、相同的基于小芯片的設(shè)計理念、相同的固件等。雖然仍然存在差異,特別是在 AVX-512 支持方面,但英特爾正在嘗試制造這些芯片盡可能互換。
正如英特爾宣布的那樣,Granite 和 Sierra 都是基于小芯片的設(shè)計,依賴于計算和 I/O 小芯片的混合,這些小芯片使用英特爾的有源 EMIB 橋接技術(shù)縫合在一起。雖然這并不是英特爾在 Xeon 領(lǐng)域首次與小芯片共舞(XCC Sapphire Rapids 獲得了這一榮譽),但這是小芯片設(shè)計的一次獨特演變,它使用了不同的計算/IO 小芯片,而不是將其他“完整”的 Xeon 小芯片拼接在一起。除此之外,這意味著 Granite 和 Sierra 可以共享通用的 I/O 小芯片(基于 Intel 7 工藝構(gòu)建),從制造的角度來看,Xeon 是 Granite 還是 Sierra “僅僅”是哪種類型的問題計算小芯片已放下。
值得注意的是,英特爾首次確認第六代至強可擴展平臺正在獲得自啟動功能,使其成為真正的 SoC。由于英特爾將操作所需的所有必要 I/O 功能都放置在 I/O 小芯片中,因此不需要外部芯片組(或 FPGA)來操作這些處理器。這使得英特爾的 Xeon 系列在功能上更接近 AMD 的 EPYC 系列,AMD 的 EPYC 系列已經(jīng)具有類似的自啟動功能一段時間了。
總而言之,第六代至強可擴展平臺將支持多達 12 個內(nèi)存通道,并可根據(jù)現(xiàn)有計算芯片的數(shù)量和功能進行擴展。正如英特爾之前透露的那樣,該平臺將是*個支持新的多路復(fù)用器組合列 (MCR:Multiplexer Combined Ranks) DIMM 的平臺,該平臺本質(zhì)上是將兩組/列內(nèi)存芯片組合在一起,以使進出 DIMM 的有效帶寬加倍。英特爾表示,憑借更高的內(nèi)存總線速度和更多的內(nèi)存通道,該平臺可以提供比當(dāng)前 Sapphire Rapids Xeon 多 2.8 倍的帶寬。
至于 I/O,*配置 Xeon 將能夠提供多達 136 個通道的通用 I/O,以及多達 6 個 UPI 鏈路(總共 144 個通道)用于多插槽連接。對于 I/O,該平臺支持 PCIe 5.0(為什么不支持 PCIe 6.0?我們被告知時機不合適)以及更新的CXL 2.0標(biāo)準(zhǔn)。與英特爾大核 Xeon 的傳統(tǒng)情況一樣,Granite Rapids 芯片將能夠總共擴展到 8 個插槽。另一方面,由于正在使用的 CPU 核心數(shù)量以及英特爾對其客戶的不同用例的期望,Sierra Forest 將只能擴展到 2 個插槽。
除了共享平臺的詳細信息外,英特爾還首次提供了 E 核和 P 核所用架構(gòu)的高級概述。正如現(xiàn)在多代 Xeon 的情況一樣,英特爾正在利用與其消費部件相同的基本 CPU 架構(gòu)。因此,Granite 和 Sierra 可以被認為是解構(gòu)的 Meteor Lake 處理器,Granite 配備 Redwood Cove P 核心,而 Sierra 配備 Crestmont E 核心。
如前所述,這是英特爾首次嘗試為 Xeon 市場提供 E 核心。對于英特爾來說,這意味著要針對數(shù)據(jù)中心工作負載調(diào)整其 E 核心設(shè)計,而不是定義上一代 E 核心設(shè)計的以消費者為中心的工作負載。
雖然沒有深入探討架構(gòu)本身,但英特爾透露 Crestmont 正在提供 6 寬指令解碼路徑(instruction decode pathway)以及 8 寬 retirement backend。雖然不如英特爾的 P 核心強大,但 E 核心絕不是輕量級核心,英特爾的設(shè)計決策反映了這一點。盡管如此,它的設(shè)計在芯片空間和能耗方面都比 Granite 中的 P 核心要高效得多。
Crestmont 的 L1 指令高速緩存(I 高速緩存)將為 64KB,是早期設(shè)計中 I-cache大小的兩倍。英特爾很少觸及 I-cache 容量(由于平衡命中率(balancing hit rates)和延遲),因此這是一個顯著的變化,一旦英特爾更多地談?wù)摷軜?gòu),看到其后果將會很有趣。
與此同時,Crestmont E-core 系列的新成員可以將這些核心打包成 2 或 4 核集群,這與目前僅提供 4 核集群的 Gracemont 不同。這本質(zhì)上就是英特爾將如何調(diào)整二級緩存與CPU核心的比例;無論配置如何,2 核集群都具有 4MB 共享 L2,每個核心為每個核心提供的 L2 數(shù)量是其他方式的兩倍。這實質(zhì)上為英特爾提供了另一個調(diào)整芯片性能的旋鈕;需要稍高性能的 Sierra 設(shè)計(而不僅僅是*化 CPU 核心數(shù)量)的客戶可以使用更少的核心,同時獲得更大的二級緩存帶來的更高性能。
最后,對于 Sierra/Crestmont,該芯片將提供與 Granite Rapids 盡可能接近的指令。這意味著 BF16 數(shù)據(jù)類型支持,以及對各種指令集的支持,例如 AVX-IFMA 和 AVX-DOT-PROD-INT8。除了 AMX 矩陣引擎之外,您在這里找不到的*東西是對 AVX-512 的支持;英特爾的超寬矢量格式不屬于 Crestmont 功能集的一部分。最終,AVX10 將有助于解決這個問題,但目前這已經(jīng)是英特爾能夠在兩個處理器之間達到同等水平的最接近的了。
同時,對于 Granite Rapids,我們有 Redwood Cove P 核心。Redwood/Granite 是 Xeon 處理器的傳統(tǒng)核心,對于英特爾來說,變化并不像 Sierra Forest 那樣大。但這并不意味著他們袖手旁觀。
在微架構(gòu)方面,Redwood Cove 獲得了與 Crestmont 相同的 64KB I-cache,容量是其前身的 2 倍。但最值得注意的是,英特爾成功地進一步降低了浮點乘法的延遲,將其從 4/5 個周期減少到僅 3 個周期。像這樣的基本指令延遲改進很少見,因此我們總是歡迎看到它們。
除此之外,Redwood Cove 微架構(gòu)的其余亮點是分支預(yù)測和預(yù)取,這是英特爾的典型優(yōu)化目標(biāo)。他們可以采取的任何措施來改進分支預(yù)測(并降低罕見失誤的成本),往往會在性能方面帶來相對較大的紅利。
Redwood Cove 的 AMX 矩陣引擎獲得了 FP16 支持,尤其適用于 Xeon 系列。FP16 的使用不如已支持的 BF16 和 INT8 那么多,但它總體上改進了 AMX 的靈活性。
內(nèi)存加密支持也正在得到改進。Granite Rapids 的 Redwood Cove 版本將支持 2048 個 256 位內(nèi)存鍵(memory keys),而 Sapphire Rapids 則支持 128 個鍵。高速緩存分配技術(shù) (CAT) 以及代碼和數(shù)據(jù)優(yōu)先級 (CDP) 功能也得到了一些增強,英特爾將它們擴展為能夠控制進入 L2 高速緩存的內(nèi)容,而不僅僅是之前的 LLC/L3 高速緩存實施。
最終,不言而喻的是,英特爾相信他們即將推出的 Xeon 處理器將在 2024 年及以后做好準(zhǔn)備。通過提高高端 P 核 Xeon 的性能,同時為只需要大量更輕的 CPU 內(nèi)核的客戶推出 E 核 Xeon,英特爾相信他們可以通過共享一個通用平臺的兩種 CPU 內(nèi)核類型來滿足整個市場的需求。
雖然現(xiàn)在談?wù)?Granite Rapids 和 Sierra Forest 的各個 SKU 還為時過早,但英特爾告訴我們,核心數(shù)量總體正在增加。Granite Rapids 部件將提供比 Sapphire Rapids 更多的 CPU 內(nèi)核(SPR XCC 為 60 個),當(dāng)然,Sierra 的 144 個內(nèi)核將提供更多的 CPU 內(nèi)核。但值得注意的是,英特爾不會按核心數(shù)量來劃分這兩個 CPU 系列——Sierra Forest 也將提供較小核心數(shù)量的產(chǎn)品(與 AMD 的 EPYC Zen4c Bergamo 芯片不同)。這反映了 P 和 E 核心的不同性能能力,毫無疑問,英特爾希望充分擁抱使用小芯片帶來的可擴展性。
雖然 Sierra Forest 已經(jīng)采用 144 個 CPU 核心,但英特爾還在我們的預(yù)簡報中發(fā)表了一個有趣的評論,即他們的* E 核至強可擴展處理器的核心數(shù)量本可以更高。但該公司決定更加優(yōu)先考慮每個核心的性能,從而產(chǎn)生我們明年將看到的芯片和核心數(shù)量。
最重要的是,英特爾正在強調(diào)他們的下一代 Xeon 處理器仍有望在 2024 年推出,這一事實或許讓營銷對 Hot Chips 的掌控時間有點太長了。不用說,英特爾剛剛從 Sapphire Rapids 的大規(guī)模延誤(以及 Emerald Rapids 的連鎖反應(yīng))中恢復(fù)過來,因此該公司熱衷于向客戶保證 Granite Rapids 和 Sierra Forest 是英特爾的時機重回正軌的地方。在之前的 Xeon 延遲和花了很長時間才將 E 核 Xeon 可擴展芯片推向市場之間,英特爾并沒有像以前那樣在數(shù)據(jù)中心市場占據(jù)主導(dǎo)地位,因此 Granite Rapids 和 Sierra Forest 將標(biāo)志著一個重要的拐點英特爾數(shù)據(jù)中心產(chǎn)品的未來發(fā)展。
AMD Siena閃亮登場
在 Hot Chips 2023 上,AMD 詳細介紹了 AMD EPYC Genoa、Genoa-X 和 Bergamo CPU。它還在演講中展示了即將推出的 Siena 平臺的關(guān)鍵規(guī)格。
我們知道,AMD Zen 4 是AMD EPYC 7003“Milan”中使用的 Zen 3 的重大升級,具有更高的 IPC、更多的時鐘和更低的功耗。
Zen 4c 則為Bergamo帶來了更加緊湊的 Zen 4 核心。即便如此,AMD 仍然專注于制造大型 CPU。在Hot Chips上,他們就展示了一種低端解決方案。
AMD 的 Socket SP5 策略是構(gòu)建不同的小芯片并將它們與通用 I/O 芯片結(jié)合起來。
現(xiàn)在,AMD 展示了第四代 AMD EPYC 產(chǎn)品組合的第四個成員,即面向電信邊緣市場的 Siena。
迄今為止,我們對Genoa的披露最多。我們最多只有 64 個內(nèi)核和 6 個 DDR5 DRAM 通道。Siena 的規(guī)模將遠低于 Genoa,TDP 為 70W 至 225W,盡管沒有英特爾的某些 Xeon D 部件那么低。
AMD 需要較低功耗的部件,因為英特爾擁有其單片芯片 Sapphire Rapids 部件,該部件對于 32 核及以下的核心非常有吸引力,這是市場上的主要銷量細分市場。96 或 128 核 350W+ 很棒,但它們不適合需要低于 150W CPU 的應(yīng)用。
AMD 還展示了一張有趣的 CCD 幻燈片,展示了 I/O 芯片的一些功能。
這是一張很棒的幻燈片。AMD 還擁有一項內(nèi)存技術(shù),包括 CXL。
我們對 AMD EPYC Siena 的推出感到非常興奮,因為 AMD 在低功耗領(lǐng)域的服務(wù)器產(chǎn)品組合中存在很大的漏洞。我們終于看到 AMD 如何利用一半的 DDR5 通道和更少的核心來實現(xiàn)這一目標(biāo)。
Arm帶來兩款處理器
在今年的hotchips上,Arm帶來了Arm Neoverse V2和Neoverse N2的更多分享。
Arm Neoverse V2 是當(dāng)前一代 Neoverse 解決方案的一部分。Arm 致力于為數(shù)據(jù)中心和基礎(chǔ)設(shè)施市場提供參考核心。Neoverse V2更多的是高性能數(shù)據(jù)中心CPU核心,而N2更多的是基礎(chǔ)設(shè)施。
我們之前介紹過 Neoverse V2,其目標(biāo)是提高 AWS 等公司在 Graviton 系列中使用的 Neoverse V1 設(shè)計的性能。
Arm Neoverse V2 是 Armv9 架構(gòu)。這是一張顯示核心部分亮點的圖表。
在分支上,預(yù)測/獲取/ICache 與 Neoverse V1 部分共享,但有一些重大改進。Arm 在每個部分都展示了這些變化對性能的影響,這非�?�。
這是V2的主題。它主要基于V1不斷升級并提供更多資源。
問題/執(zhí)行方面是 V2 中的一個重大變化。
Load/Store 和 DCache 發(fā)生了變化,例如 TLB 增加了 20%。
這也意味著 Arm 需要改進內(nèi)核的硬件預(yù)取,以保持執(zhí)行單元和緩存的運行。
L2 緩存是每個核心私有的,是數(shù)據(jù)中心的重要特性。這是一個較小的 SPEC Int 增益區(qū)域。
Arm 表示,與 V1 相比,這些 V2 變化綜合起來使每個內(nèi)核的性能提高了約 13%。如果添加的話,每個部分的數(shù)字并不等于 13% 的增長。這是因為某些變化會影響其他變化,因此總數(shù)小于每個單獨改進領(lǐng)域的總和。
Arm 表示,新內(nèi)核從臺積電 7 納米縮小到 5 納米,盡管 L2 緩存增加了一倍,但功耗僅增加了約 17%,面積也大致相同。有趣的是,上面幻燈片中的 Arm 表示 V2 快了 13%,但下面的幻燈片使用了 16.666% 的功率。
除了 V2 內(nèi)核本身之外,該平臺還具有 CMN-700 互連等功能,可提供更多緩存并增加內(nèi)核數(shù)量。對于 Arm Neoverse 內(nèi)核,這是內(nèi)核,而不是整個芯片,因此需要采購 PCIe Gen5 IP 等項目。
以下是性能結(jié)果的假設(shè):
Arm 正在展示其整數(shù)性能。在預(yù)簡報電話會議上,分析師詢問了兩個估計結(jié)果之間的差異,因為右側(cè)圖表標(biāo)記為“SPECrate”,但都沒有標(biāo)記為基礎(chǔ)或峰值。Arm 無法證實這一點。我們*的猜測是,左圖是基礎(chǔ)圖,右圖是峰值圖,但這只是猜測,因為 Arm 無法確認他們所顯示的內(nèi)容。
這些結(jié)果只是估計值,但以下是實際提交的結(jié)果,其中結(jié)果標(biāo)有基線和峰值。令人驚奇的是,CPU 公司竟然無法回答這個問題。
這里是 Memcached,它通常較少受 CPU 限制,但較多內(nèi)存/緩存限制。它是另一個整數(shù),而不是浮點工作負載。因此,它通常在 Arm CPU 上表現(xiàn)良好。
Nginx 是一種流行的 Web 服務(wù)器。這是另一個以整數(shù)為主的模型,因此一直是顯示 Arm 服務(wù)器性能的支柱。
這是整數(shù)工作負載基準(zhǔn)測試的另一個趨勢。這一個得到了更大的推動。
這是 XGBoost 性能。
NVIDIA Grace Superchip 和 Grace Hopper 均使用該技術(shù)。這些主要是內(nèi)存帶寬敏感的工作負載。Grace Superchip 的正確比較應(yīng)該是 Intel Xeon Max 和Genoa-X。
在 Hot Chips 2023 上,Arm 展示了一種實現(xiàn)Neoverse N2 內(nèi)核的新方法。Arm Neoverse 計算子系統(tǒng)或 Neoverse CSS ,該系統(tǒng)不僅僅授權(quán) N2 核心 IP,還允許客戶購買更大的 IP 模塊以投入設(shè)計。
Arm 的目標(biāo)是 Neoverse CSS,讓 Chiplet 社區(qū)能夠更輕松地集成 Noeverse N2 內(nèi)核。
借助新的經(jīng)過驗證的 CSS 解決方案,實現(xiàn) Arm 內(nèi)核所需的工作量更少,從而加快了開發(fā)速度,但 Arm 還有其他選擇。
Neoverse CSS 已完全驗證 RTL 調(diào)整并準(zhǔn)備好實施到設(shè)計中。
*個 Neoverse CSS 產(chǎn)品是 Neoverse CSS N2。它使用 Arm 的橫向擴展 Neoverse N2 內(nèi)核,并允許公司選擇內(nèi)核集群并在設(shè)計中實現(xiàn)它們。
N2 可從每芯片 24、32 和 64 個核心設(shè)計進行擴展。它具有連接 DDR5、LPDDR5、PCIe/CXL 和其他類型 IP 的接口。
這是框圖。Arm 在這里使用 CMN-700 將不同的組件連接在一起。CSS 開箱即用,符合 Arm 標(biāo)準(zhǔn),這是有道理的。
處理器 IP 模塊基于 Neoverse N2 內(nèi)核。
還有一個用于系統(tǒng)控制和管理的IP塊。
還有一個系統(tǒng)MMU和中斷控制器。
同樣,Neoverse CMN-700 包含系統(tǒng)級緩存和基于網(wǎng)格的一致互連。
Arm 的目標(biāo)客戶是想要附加加速器的供應(yīng)商,因此它擁有用于連接這些加速器的 IP。
通過將兩個 64 核 Neoverse N2 小芯片連接在一起,Arm 可以達到每個插槽 128 個核心。這告訴我們,Arm 的目標(biāo)并不是成為這一代具有競爭力的高密度服務(wù)器 CPU 基礎(chǔ)。根據(jù)我們迄今為止所看到的Marvell Octeon 10等部件和Ampere Altra Max M128-30等 Neoverse N1 128 核心部件, 28 個 Arm Neoverse N2 核心將無法與 AMD 發(fā)貨的 Bergamo 性能相匹配。這確實適合那些需要 CPU 內(nèi)核作為加速器的人。
芯片和小芯片有不同的接口選項。
這是 CMN 網(wǎng)關(guān),但同樣,這似乎并不是為高端多插槽 CPU 系統(tǒng)設(shè)計的。
這是添加的有關(guān) CXL 和 PCIe IP 的幻燈片。
Arm 表示,通過正確添加的 IP,它可以支持CXL Type-3 內(nèi)存擴展設(shè)備。
以下是以 32 核設(shè)計的 Arm Neoverse CSS N2 布局為例。
在這里,我們可以有兩個 N2 塊,并通過 CMN-700 連接所有內(nèi)容。
除了布局規(guī)劃外,Neoverse CSS 還擁有 RTL 和其他軟件和設(shè)計平臺工具,以幫助加快開發(fā)速度。
Arm 表示,利用這一點,它可能能夠?qū)⒃O(shè)計速度加快幾個季度。
英特爾和 AMD 需要解決這個問題。隨著時間的推移,Arm 的嵌入式 Neoverse CSS 可能會擴展到其他核心類型。未來,下一個問題是這與小芯片 CPU 的相關(guān)性如何。例如,如果英特爾允許代工客戶購買并集成 E-core 小芯片,那么下一步就是讓希望構(gòu)建封裝的公司變得更容易。盡管如此,Arm 今天已經(jīng)推出了 CSS,理論上,它允許公司輕松地將 N2 內(nèi)核與加速器集成到非基于小芯片的 SoC 中。
這是一個很酷的解決方案,我們希望能夠擴展。另一方面,人們也可能會爭辯說,Arm 可以在未來為生態(tài)系統(tǒng)銷售預(yù)制的、可隨時與 UCIe 集成的 Neoverse 芯片。
Ventana 的RISC-V芯片Veyron V1
在 Hot Chips 2023 上,RISC-V CPU 初創(chuàng)公司 Ventana Micro 展示了其新數(shù)據(jù)中心 Veyron V1。Ventana Veyron V1 著眼于數(shù)據(jù)中心 RISC-V CPU 的新時代。雖然這是在 V1 產(chǎn)品上,但該公司顯然已經(jīng)在使用 V2 產(chǎn)品了。
Ventana 為Veyron V1 提供了一個有趣的目標(biāo)市場,*的描述是“只要我們能找到需求”。
之所以有這個想法,是因為Ventana Micro 擁有一個 RISC-V CPU 內(nèi)核,每個小芯片最多有 16 個內(nèi)核,然后將它們與具有 DDR 內(nèi)存控制器和 PCIe 等功能的 I/O 集線器結(jié)合起來。Ventana 表示,它可以將 Veyron V1 擴展至 192 個核心,但它也可以集成特定領(lǐng)域的加速器。
以下是芯片的關(guān)鍵規(guī)格,包括核心、緩存等。Ventana 表示,Veyron V1 將支持虛擬化等功能,并采取措施使其更能抵御側(cè)信道攻擊。在支持方面,令我們驚訝的是該公司已經(jīng)在討論嵌套虛擬化。我們看到的 Arm Neoverse N1 芯片甚至不支持嵌套虛擬化。
這里有更多關(guān)于核心微架構(gòu)的信息。
這是預(yù)測、獲取和解碼幻燈片:
以下是加載/存儲詳細信息:
從處理器集群規(guī)模來看,每個16核集群擁有高達48MB的L3緩存。
如果該公司將 UCIe 納入此處只是為了說它是首批UCIe CPU之一并傾向于小芯片,那就真的很有趣了。
在性能方面,Ventana 的目標(biāo)是達到上一代 128 核 Veyron的性能。AMD EPYC Bergamo等 CPU 的數(shù)量比 Milan 高得多(>2 倍)。該公司表示,V2 尚未投入生產(chǎn),而Bergamo已經(jīng)普遍上市。
在 RISC-V 市場中,Ventana 目前不必比 AMD 和 Intel 更快。它只需不是 x86,不是 Arm,而是 RISC-V。人們正在將 RISC-V 專門視為未來 CPU 和 xPU 設(shè)計中 Arm 的替代品。
Ventana 還具有可用于 TSMC 5nm的參考 Veyron V1 實現(xiàn)。
RISC-V 是 x86 替代領(lǐng)域值得關(guān)注的技術(shù)。Arm 已經(jīng)很大了,但隨著它致力于改進其業(yè)務(wù),RISC-V 有機會顛覆 Arm 所做的大量工作。2016年,當(dāng)我們評測Cavium ThunderX時,Arm服務(wù)器CPU非常粗糙。從那時起,從單一 x86 架構(gòu)代碼庫和基礎(chǔ)設(shè)施遷移到 x86 和 Arm 的多架構(gòu)世界已經(jīng)做了很多工作。RISC-V 正在利用其中的大量工作來提高其市場速度。它的 I/O 芯片設(shè)計似乎也借鑒了 AMD 的經(jīng)驗教訓(xùn),這已被證明是成功的。
三星展示PIM內(nèi)存技術(shù)
在 Hot Chips 2023 (35) 上,三星再次談?wù)撈鋬?nèi)存處理 (PIM),并進行了新的研究和新的轉(zhuǎn)變。如三星所說,計算中*的成本之一是將數(shù)據(jù)從不同的存儲和內(nèi)存位置移動到實際的計算引擎。
目前,公司嘗試為不同類型的內(nèi)存添加更多通道或通道,但這有其局限性。
三星正在討論 CXL。CXL 很有幫助,因為它允許重新調(diào)整 PCIe 線路的用途,以提供更多內(nèi)存帶寬。
在三星的分享中,他們也談到了ChatGPT的瓶頸。
三星同時也對 GPT 的計算溢出和內(nèi)存限制工作負載進行了分析。
以下是關(guān)于利用率和執(zhí)行時間方面的分析工作的更多信息。
三星展示了如何將部分計算管道卸載到內(nèi)存處理 (PIM) 模塊。
在內(nèi)存模塊而不是加速器上進行處理可以節(jié)省數(shù)據(jù)移動,從而降低功耗和互連成本。
在 SK 海力士談?wù)撈浣鉀Q方案中的 GDDR6 時,三星則展示了其高帶寬內(nèi)存 HBM-PIM。
顯然,三星和 AMD 的 MI100 帶有 HBM-PIM 而不僅僅是標(biāo)準(zhǔn) PIM,因此它可以構(gòu)建一個集群,這樣它就可以擁有聽起來像 12 節(jié)點 8 加速器的集群來嘗試新內(nèi)存。
以下是 T5-MoE 模型如何在集群中使用 HBM-PIM。
以下是性能和能源效率的提升。
其中很大一部分還在于如何讓 PIM 模塊做有用的工作。這需要軟件來編程和利用 PIM 模塊。
三星希望能夠?qū)⒋藘?nèi)置于標(biāo)準(zhǔn)編程模塊中。
這是用于內(nèi)存耦合計算的 OneMCC 的未來狀態(tài),但這聽起來像是未來的狀態(tài),而不是當(dāng)前的狀態(tài)。
看來三星不僅展示了 HBM-PIM,還展示了 LPDDR-PIM。與當(dāng)今的一切一樣,它需要一個生成式人工智能標(biāo)簽。
這似乎更像是一個概念,而不是集群中 AMD MI100 上使用的 HBM-PIM。
該 LPDDR-PIM 的內(nèi)部帶寬僅為 102.4GB/s,但其想法是,將計算保持在內(nèi)存模塊上意味著無需將數(shù)據(jù)傳輸回 CPU 或 xPU,從而降低功耗。
以下是模塊上包含 PIM 組和 DRAM 組的架構(gòu)。
以下是可能的 LP5-PIM 模塊的性能和功耗分析。
如果 HBM-PIM 和 LPDDR-PIM 還不夠,三星正在考慮將計算放到 PNM-CXL 中的 CXL 模塊上。
這里的想法不僅僅是將內(nèi)存放在 CXL Type-3 模塊上。相反,三星建議將計算放在 CXL 模塊上。這可以通過向 CXL 模塊添加計算元件并使用標(biāo)準(zhǔn)內(nèi)存或在模塊上使用 PIM 和更標(biāo)準(zhǔn)的 CXL 控制器來完成。
當(dāng)然,我們已經(jīng)展示了這如何幫助 GPT 方面的生成人工智能。三星也推出了一款概念 512GB CXL-PNM 卡,帶寬高達 1.1TB/s。
這是三星提出的 CXL-PNM 軟件堆棧。
以下是大規(guī)模 LLM 工作負載的預(yù)期節(jié)能和吞吐量。CXL 通常通過也用于 PCIe 的電線,因此傳輸數(shù)據(jù)的能源成本非常高。因此,能夠避免數(shù)據(jù)傳輸會帶來巨大的好處。
由于上述原因,三星也非常重視減排。
三星多年來一直在推動 PIM,但 PIM/PNM 似乎正在從純粹的研究概念轉(zhuǎn)變?yōu)檎嬲M麑⑵洚a(chǎn)品化的公司。希望我們將來能看到更多這樣的事情。CXL-PNM 最終可能成為此類計算的成熟領(lǐng)域。
SK 海力士的 AI 內(nèi)存亮相
在 Hot Chips 35 (2023) 上,SK 海力士將其在內(nèi)存方面的專業(yè)知識應(yīng)用于當(dāng)今的大計算問題——人工智能。在展會上,它展示了其在具有特定域內(nèi)存的內(nèi)存中心計算方面的工作。該公司正在尋找方法來緩解當(dāng)今人工智能計算面臨的*挑戰(zhàn)之一,即與可用計算資源相關(guān)的內(nèi)存容量和帶寬。
這是SK海力士的問題定義。生成式人工智能推理成本巨大。這不僅僅是人工智能計算。電源、互連和內(nèi)存也導(dǎo)致了大量成本。
對于大型transformer模型,內(nèi)存是一個主要挑戰(zhàn)。這些模型需要大量數(shù)據(jù),因此通常受到內(nèi)存容量和帶寬的限制。
SK 海力士認為,行業(yè)需要的不僅僅是內(nèi)存,還需要不同類型的內(nèi)存,包括內(nèi)置計算功能的特定領(lǐng)域內(nèi)存。三星和 SK 海力士一直致力于成為內(nèi)存計算提供商,因為這是他們向價值鏈上游移動的方式。
在這一點上,我們將聽到 Accelerator-in-Memory 或 SK hynix AiM。
下面是 GDDR6 內(nèi)存的外觀,其中有多個內(nèi)存組,每個內(nèi)存組都有自己的 1GHz 處理單元,能夠?qū)崿F(xiàn) 512GB/s 的內(nèi)部帶寬。
SK hynix 討論了它計劃如何在內(nèi)存中進行 GEMV 以進行 AI 計算。權(quán)重矩陣數(shù)據(jù)來自bank,而矢量數(shù)據(jù)來自全局緩沖區(qū)。
內(nèi)存計算有特定的 AiM 內(nèi)存命令。
SK hynix 展示了大型語言模型所需的內(nèi)存擴展方式以及 AiM 內(nèi)存計算資源的需求。
以下是大型語言模型 (LLM) 的擴展方式:
使用這種類型的 AiM 面臨的一大挑戰(zhàn)是它需要從軟件端進行映射、為 AiM 構(gòu)建硬件,然后需要一個接口。這是采用的其他重大障礙之一。
以下是 SK 海力士如何將問題映射到 AiM。
系統(tǒng)架構(gòu)需要處理縱向擴展和橫向擴展。
AIM 架構(gòu)的關(guān)鍵組件包括 AiM 控制器、可擴展多播互連、路由器、計算單元 (ALU) 和指令排序器。
矩陣向量累加函數(shù)是 AI 工作負載的關(guān)鍵。SK hynix AiM 使用類似 CISC 的指令集來管理此操作。
下一步是優(yōu)化。對于新的架構(gòu),通常可以利用一些細微差別來獲得更好的性能。
SK海力士并不只是抽象地談?wù)揂iM。相反,它展示了使用兩個 FPGA 的 GDDR6 AiM 解決方案的概念驗證。
它還展示了 AiM 的軟件堆棧。
聽起來 SK 海力士并不打算出售這些卡,相反,這些卡似乎是用來證明這個概念的。
SK 海力士仍處于評估階段,對該解決方案與更傳統(tǒng)的解決方案進行不同類型的分析。
SK 海力士和三星多年來一直在談?wù)搩?nèi)存計算�?纯次磥硎欠裼写罂蛻舨捎眠@一點將會很有趣。目前看來,下一代人工智能計算本質(zhì)上將更加傳統(tǒng),但這也許是幾年后將會起飛的領(lǐng)域之一。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...