導(dǎo)語(yǔ):國(guó)內(nèi)180 余家大模型企業(yè)的共同訴求
「現(xiàn)在是不是很多人打電話(huà)要卡?」
「這段時(shí)間確實(shí)是�!�
2023 年 8 月,在青島 2023 年CCF全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)(CCF HPC China 2023)的現(xiàn)場(chǎng),筆者見(jiàn)到了北京超級(jí)云計(jì)算中心CTO甄亞楠。
算力、算法、數(shù)據(jù)被稱(chēng)為大模型時(shí)代的三駕馬車(chē)。業(yè)界多宣傳算法先進(jìn)性,但算力其實(shí)是各家的大后方重要據(jù)點(diǎn),很少有企業(yè)愿意將自己有多少?gòu)埧ㄩ_(kāi)誠(chéng)布公地講出來(lái)。提及這個(gè)問(wèn)題時(shí),甄亞楠很淡定。毫不掩飾北京超級(jí)云計(jì)算中心的實(shí)力與資源。
「數(shù)據(jù)顯示中國(guó)現(xiàn)在有 79 家大模型公司,實(shí)際我們接觸過(guò)程中,這個(gè)數(shù)字高達(dá) 180+�!�
2011年11月1日正式奠基的北京超級(jí)云計(jì)算中心(以下簡(jiǎn)稱(chēng)北京超算)一開(kāi)始就贏在了起跑線上,背后超強(qiáng)的CPU及GPU資源,在大模型時(shí)代顯得尤為矚目。
ChatGPT的火爆使得各大廠商對(duì)于高端算力資源的需求愈發(fā)旺盛,形成了需求與供給間的巨大鴻溝。這對(duì)于北京超算而言,既是機(jī)遇,又意味著巨大的挑戰(zhàn)。在交流的過(guò)程中,甄亞楠也為展示了他對(duì)于這一浪潮的深度思考。
據(jù)OpenAI報(bào)告,訓(xùn)練一次 1746 億參數(shù)的 GPT-3模型需要的算力約為 3640 PFlop/s-day。即假如每秒計(jì)算一千萬(wàn)億次, 也需要計(jì)算 3640 天,此外目前大模型訓(xùn)練所需算力的增速保持在3-4個(gè)月/倍速度增長(zhǎng),遠(yuǎn)超摩爾定律 18-24個(gè)月/倍,如此大規(guī)模的算力需求,GPU一卡難求成為行業(yè)共識(shí)。
但與大眾所認(rèn)知的不一樣,AI所需要的算力與傳統(tǒng)超算其實(shí)還存在著略微的差異。在傳統(tǒng)的超算領(lǐng)域里邊,算力主要依托于CPU,然后以及內(nèi)存來(lái)幫用戶(hù)去解決科學(xué)計(jì)算的問(wèn)題。但是在人工智能領(lǐng)域里邊, 我們常常聽(tīng)到的都是GPU。這其實(shí)與GPU的獨(dú)特性能有關(guān)。而人工智能和機(jī)器學(xué)習(xí)最流行的算法即為深度神經(jīng)網(wǎng)絡(luò)計(jì)算,其核心為超大規(guī)模矩陣計(jì)算,在這方面,GPU在矩陣計(jì)算方面十分出色,所以GPU之于AI可謂是相當(dāng)契合。
「我們也是關(guān)注到了這一點(diǎn),并且業(yè)內(nèi)目前有非常多的科學(xué)計(jì)算的程序以及人工智能相關(guān)的一些框架,都可以支持GPU的計(jì)算加速,這樣的話(huà)也可以有效得到計(jì)算結(jié)果的產(chǎn)出�!拐鐏嗛硎尽�
從甄亞楠的回答中,我們也能間接得出北京超算能獲得眾多用戶(hù)青睞的原因,一方面是北京超算對(duì)于模型算力底座的持續(xù)搭建,另一方面也來(lái)自于其不斷創(chuàng)新的商業(yè)模式,北京超算對(duì)算力進(jìn)行租賃,用戶(hù)只需要支付實(shí)際使用所需的計(jì)算量與計(jì)算時(shí)間,大幅度降低運(yùn)營(yíng)成本,成為大模型時(shí)代絕佳的算力支持。
談到大模型的未來(lái),甄亞楠表示,未來(lái)具有太多不確定性,但不管怎樣,百模大戰(zhàn)之下的算力需求已成肉眼可見(jiàn)的行業(yè)趨勢(shì),北京超算對(duì)未來(lái)的規(guī)劃也十分清楚明晰。目前除了北京以外,北京超算已經(jīng)在內(nèi)蒙古、寧夏等地建設(shè)了大型算力中心,未來(lái)也有規(guī)劃繼續(xù)去擴(kuò)容算力中心的地域以及規(guī)模。在面向于用戶(hù)應(yīng)用場(chǎng)景,采用了按需建設(shè)的一個(gè)算力資源建設(shè)模式,根據(jù)用戶(hù)的實(shí)際業(yè)務(wù)需求來(lái)去建設(shè)匹配用戶(hù)業(yè)務(wù)的算力資源。
1、大模型時(shí)代下的算力「饑渴」
雷峰網(wǎng):大模型熱潮對(duì)于算力資源帶來(lái)了哪樣的機(jī)遇與挑戰(zhàn)?北京超算在這方面有哪些布局?
甄亞楠:大模型訓(xùn)練對(duì)于今年的算力來(lái)講是一個(gè)非常大的機(jī)遇,同時(shí)也伴隨著相應(yīng)的挑戰(zhàn)。機(jī)遇主要體現(xiàn)在大模型算力需求量屬于爆發(fā)式增長(zhǎng)。對(duì)于算力中心來(lái)講,需要有非常龐大的計(jì)算能力來(lái)去進(jìn)行有效支撐。但是,現(xiàn)在從大模型算力的供給量而言,我們現(xiàn)在還是受到了一些瓶頸上的制約,所以我們一方面在積極尋找優(yōu)質(zhì)的加速卡資源,來(lái)保障用戶(hù)在大模型計(jì)算過(guò)程中有效的、短期的算力資源。另一方面我們擁有強(qiáng)大的算力服務(wù)能力,持續(xù)性輸出給大模型客戶(hù),比如算力資源建設(shè)能力、后方保障能力等。
同時(shí),面向于大規(guī)模計(jì)算的業(yè)務(wù)場(chǎng)景,未來(lái)是否有持續(xù)性的算力需求,我們也正在持續(xù)的觀察中。我們希望能夠和大模型的算力合作伙伴保持長(zhǎng)期的穩(wěn)定的合作關(guān)系,為未來(lái)的算力發(fā)展以及算力規(guī)劃,去提供有效數(shù)據(jù),從而更有效地服務(wù)于業(yè)務(wù)場(chǎng)景。
今年年初我們就已經(jīng)制定了超過(guò)萬(wàn)張GPU卡的算力的建設(shè)規(guī)劃,到目前為止已經(jīng)有部分的算力資源上線,并且服務(wù)了國(guó)內(nèi)比較多的大模型的算力客戶(hù),保障了用戶(hù)業(yè)務(wù)的有效開(kāi)展,也希望后續(xù)我們的算力資源能夠持續(xù)為大模型的客戶(hù)提供有效保障。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)):北京超算構(gòu)建超算架構(gòu)模式,最開(kāi)始布局是起源于什么時(shí)候,是基于哪樣的初衷與考慮呢?
甄亞楠:北京超級(jí)云計(jì)算中心成立于2011年,自成立之初一直都在做超算相關(guān)的一些業(yè)務(wù),也就是采用通用算力來(lái)去解決科學(xué)計(jì)算和工程計(jì)算中所遇到的一些計(jì)算密集型的問(wèn)題。
我們從2019年開(kāi)始布局AI算力,也就是通過(guò)GPU以及其他的加速卡,來(lái)給客戶(hù)提供算力上的一些服務(wù)和支撐。通過(guò)算力服務(wù)來(lái)保證用戶(hù)在人工智能的場(chǎng)景里邊可以得到有效的支撐。
在服務(wù)的過(guò)程中,我們其實(shí)也看到了在傳統(tǒng)的深度學(xué)習(xí)以及大模型領(lǐng)域,用戶(hù)對(duì)于算力資源的需求量比較豐富,我們希望能夠在多場(chǎng)景的情況下,比如說(shuō)在自然語(yǔ)言處理、聲音識(shí)別、自動(dòng)駕駛等多個(gè)場(chǎng)景里邊給客戶(hù)去提供支撐服務(wù)。
到目前為止,從產(chǎn)品的角度來(lái)講,北京超算已經(jīng)形成了基于超算架構(gòu)的算力資源,以及基于云主機(jī)的算力資源,既可以滿(mǎn)足用戶(hù)在大規(guī)模并行計(jì)算上邊的算力需求,也可以滿(mǎn)足用戶(hù)在傳統(tǒng)科研、教育過(guò)程中所需的算力需求。在平臺(tái)上,我們會(huì)集成用戶(hù)所常用的一些深度學(xué)習(xí)框架或者是一些開(kāi)源的數(shù)據(jù)集,可以保證用戶(hù)在使用過(guò)程中得到一個(gè)高效穩(wěn)定的環(huán)境。
雷峰網(wǎng):以超級(jí)計(jì)算機(jī)為代表的超算架構(gòu)能力能夠提升大模型訓(xùn)練的效果、收斂以及預(yù)測(cè)的精準(zhǔn)度。北京超算是如何做到這一點(diǎn)的?
甄亞楠:目前在大模型的業(yè)務(wù)場(chǎng)景里邊,參數(shù)量的增長(zhǎng)速度比較大,參數(shù)增長(zhǎng)量和整個(gè)計(jì)算量基本上是成正比的關(guān)系。用戶(hù)對(duì)于計(jì)算量和精度的高要求,離不開(kāi)算力的支撐。我們會(huì)通過(guò)增加GPU算力資源,同時(shí)通過(guò)對(duì)用戶(hù)場(chǎng)景的應(yīng)用性能分析,綜合判斷客戶(hù)在計(jì)算過(guò)程中究竟需要怎樣的算力資源。首先我們要保證給客戶(hù)去提供穩(wěn)定可靠的算力資源,保證這些算力在用戶(hù)環(huán)境上是可用的;同時(shí),我們還需要針對(duì)用戶(hù)的業(yè)務(wù)場(chǎng)景去提供多種多樣的算力服務(wù),既包括了我們整個(gè)系統(tǒng)級(jí)服務(wù),平臺(tái)級(jí)服務(wù);針對(duì)于各種實(shí)際場(chǎng)景,我們也可以去提供深入針對(duì)代碼級(jí)的優(yōu)化服務(wù),從而提供非常好用的算力環(huán)境;我們也將持續(xù)去優(yōu)化算力成本,以及平臺(tái)的計(jì)算時(shí)長(zhǎng),保障用戶(hù)的降本增效。
2、行業(yè)變革下的應(yīng)對(duì)與思考
雷峰網(wǎng):超級(jí)計(jì)算機(jī)通常使用的是高性能的CPU和大量的RIM,而AI計(jì)算通常是更加依賴(lài)于GPU和其他的專(zhuān)門(mén)的硬件,對(duì)于傳統(tǒng)超算的與AI運(yùn)算所需要的硬件之間的差異與融合,您是如何看待的?
甄亞楠:在傳統(tǒng)的超算領(lǐng)域里邊,我們主要依托于CPU以及內(nèi)存來(lái)幫用戶(hù)去解決科學(xué)計(jì)算的問(wèn)題。但是在人工智能領(lǐng)域里邊,GPU在矩陣計(jì)算方面具有獨(dú)特優(yōu)勢(shì),所以在GPU以及顯存方面,我們可以給用戶(hù)帶來(lái)非常高的性能上的提升。在人工智能以及部分的科學(xué)計(jì)算場(chǎng)景里邊,目前都已經(jīng)采用了GPU加速卡來(lái)作為計(jì)算加速的有效部件,那么我們也是關(guān)注到了這一點(diǎn),目前業(yè)內(nèi)有非常多的科學(xué)計(jì)算的程序以及人工智能相關(guān)的框架,都可以支持GPU的計(jì)算加速,有效促進(jìn)計(jì)算結(jié)果的產(chǎn)出。
雷峰網(wǎng):超算對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)量和存儲(chǔ)種類(lèi)都在快速增加,北京超算的超算架構(gòu)模式整合了國(guó)內(nèi)各大中心的算力資源,在數(shù)據(jù)存儲(chǔ)方面是否有針對(duì)性的一個(gè)優(yōu)化計(jì)劃?
甄亞楠:在存儲(chǔ)方面,無(wú)論是科學(xué)計(jì)算還是人工智能計(jì)算都面臨著以下幾方面的需求與挑戰(zhàn):
一方面是存儲(chǔ)容量的增加,隨著大模型相關(guān)的業(yè)務(wù)的開(kāi)展,用戶(hù)對(duì)于存儲(chǔ)容量的需求相對(duì)來(lái)說(shuō)還是比較大的。
另一方面,大模型對(duì)于存儲(chǔ)IO性能的要求在逐漸提高,在計(jì)算過(guò)程中伴隨著大量的數(shù)據(jù)的讀取,我們?nèi)绾稳ヌ峁└咝У臄?shù)據(jù)存儲(chǔ)空間,能夠既可以滿(mǎn)足用戶(hù)容量的需求,又可以滿(mǎn)足用戶(hù)讀寫(xiě)上的需求,這個(gè)是用戶(hù)非常關(guān)心的一個(gè)點(diǎn)。
此外,對(duì)于整個(gè)存儲(chǔ)服務(wù)領(lǐng)域,我們能不能提供有效的存儲(chǔ)解決方案,既可以保證用戶(hù)數(shù)據(jù)的安全性,又可以讓用戶(hù)輕松的在云端完成自己數(shù)據(jù)的管理。
北京超算提供了多種的存儲(chǔ)解決方案,一方面我們可以提供基于SSD的存儲(chǔ)空間,保障了用戶(hù)的數(shù)據(jù)存儲(chǔ)變得高效;同時(shí)我們也可以提供基于PB級(jí)的大容量的存儲(chǔ)空間,可以存儲(chǔ)用戶(hù)更多的數(shù)據(jù);針對(duì)于企業(yè)級(jí)客戶(hù),或者是針對(duì)于私有數(shù)據(jù)的客戶(hù)群體,北京超算也可以提供獨(dú)立的存儲(chǔ)空間來(lái)保障用戶(hù)的數(shù)據(jù),使客戶(hù)得到有效安全的存儲(chǔ);同時(shí)我們也提供分布式文件系統(tǒng),來(lái)保證用戶(hù)數(shù)據(jù)業(yè)務(wù)的安全性和穩(wěn)定性。
雷峰網(wǎng):在處理人工智能大規(guī)模訓(xùn)練的時(shí)候,與普通的計(jì)算方式相比,異構(gòu)計(jì)算和大規(guī)模并行計(jì)算有哪些顯著優(yōu)勢(shì)?
甄亞楠:異構(gòu)計(jì)算目前主要是指采用CPU+加速卡的模式來(lái)給用戶(hù)去提供對(duì)應(yīng)的算力服務(wù)。這塊主要是基于應(yīng)用場(chǎng)景來(lái)開(kāi)展,我們一般去處理這種場(chǎng)景的話(huà),都是從用戶(hù)的應(yīng)用程序來(lái)出發(fā),如果用戶(hù)的應(yīng)用程序只支持傳統(tǒng)的CPU計(jì)算,那么它的業(yè)務(wù)場(chǎng)景基本上都維持在CPU計(jì)算的場(chǎng)景里邊。但是現(xiàn)在我們很高興地看到不管是常用的計(jì)算軟件還是針對(duì)性的國(guó)產(chǎn)計(jì)算軟件,基本上都支持了CPU+加速卡的異構(gòu)計(jì)算模式。我們也相信未來(lái)會(huì)有更多的計(jì)算軟件加入到異構(gòu)計(jì)算的這個(gè)場(chǎng)景里面去。
北京超級(jí)云計(jì)算中心,現(xiàn)在也在積極地部署異構(gòu)算力資源,通過(guò)多種資源的多元化來(lái)保證用戶(hù)不同業(yè)務(wù)場(chǎng)景的有效服務(wù)。
3、暗礁之上,持續(xù)突圍
雷峰網(wǎng):收集、策劃和清洗數(shù)據(jù)是模型生產(chǎn)中非常大的一個(gè)挑戰(zhàn),超算架構(gòu)模式能否在一定程度上解決這個(gè)問(wèn)題?
甄亞楠:數(shù)據(jù)的清洗和處理是整個(gè)人工智能在發(fā)展過(guò)程中“三駕馬車(chē)”里面非常重要的一方面。整個(gè)大模型計(jì)算的過(guò)程中,北京超級(jí)云計(jì)算中心可以為用戶(hù)提供非常穩(wěn)定的大規(guī)模算力資源,同時(shí)也可以給用戶(hù)去提供高效的數(shù)據(jù)處理空間。用戶(hù)在進(jìn)行數(shù)據(jù)處理的過(guò)程中,一般是基于自有的算力環(huán)境來(lái)解決的,主要進(jìn)行數(shù)據(jù)的標(biāo)注和處理。但是一旦到了大量計(jì)算,就需要把用戶(hù)的數(shù)據(jù)遷移到北京超級(jí)云計(jì)算中心的算力資源上,來(lái)進(jìn)行大規(guī)模的并行計(jì)算。所以綜合而言,超算架構(gòu)模式能在一定程度上幫助用戶(hù)解決數(shù)據(jù)清洗的問(wèn)題。
雷峰網(wǎng):AI進(jìn)入了產(chǎn)業(yè)周期,大家對(duì)于AI基礎(chǔ)設(shè)施的關(guān)注度越來(lái)越高,對(duì)于業(yè)界常說(shuō)的“端、邊、云”全場(chǎng)景AI基礎(chǔ)設(shè)施,您如何看待?
甄亞楠:AI業(yè)務(wù)的上下游產(chǎn)業(yè)鏈相對(duì)來(lái)說(shuō)比較長(zhǎng),算力其實(shí)有多元化的不同種類(lèi)。北京超級(jí)云計(jì)算中心所提供的算力資源,主要是給用戶(hù)去解決離線業(yè)務(wù)的大規(guī)模并行計(jì)算,而對(duì)于相關(guān)軟件算法的初創(chuàng)期,如果有大量的模型求解任務(wù)需要進(jìn)行現(xiàn)實(shí)環(huán)境下的大規(guī)模計(jì)算,這種場(chǎng)景更適合于放在超算中心來(lái)完成。
針對(duì)于部分用戶(hù)在實(shí)際投入生產(chǎn)的業(yè)務(wù)來(lái)講,這些業(yè)務(wù)的話(huà)可以通過(guò)“云、邊、端”聯(lián)動(dòng)的方式,來(lái)得到有效的支撐。
雷峰網(wǎng):在超算體系中,芯片操作系統(tǒng)以及各種應(yīng)用等方面的國(guó)產(chǎn)化趨勢(shì)越來(lái)越明顯,您如何看待國(guó)產(chǎn)化趨勢(shì)?國(guó)產(chǎn)化過(guò)程中是否有存在一些困難與挑戰(zhàn)?是如何克服的?
甄亞楠:我們非常關(guān)注芯片、軟件以及服務(wù)生態(tài)國(guó)產(chǎn)化方面的相關(guān)進(jìn)展。同時(shí),在服務(wù)用戶(hù)的過(guò)程中也發(fā)現(xiàn)了相關(guān)需求,比如說(shuō)相較于通用算力,用戶(hù)在使用國(guó)產(chǎn)算力上時(shí),是不是會(huì)有性能上的差異,以及國(guó)產(chǎn)工業(yè)軟件的功能以及精度,是不是與國(guó)外軟件會(huì)有一定的差異性。用戶(hù)在使用過(guò)程中也非常關(guān)注這些軟件如何高速有效的移植到國(guó)產(chǎn)芯片上,以及移植完成以后是不是可以達(dá)到類(lèi)似于通用芯片的計(jì)算性能與效果。所以在這一方面,北京超級(jí)云計(jì)算中心希望和國(guó)內(nèi)的芯片廠商以及軟件的研發(fā)單位,共同打造我們的國(guó)產(chǎn)生態(tài)。
同時(shí),我們也希望能夠通過(guò)北京超算的算力服務(wù)平臺(tái),將更多優(yōu)質(zhì)的國(guó)產(chǎn)芯片和國(guó)產(chǎn)工業(yè)軟件提供給用戶(hù)來(lái)進(jìn)行使用。
雷峰網(wǎng):未來(lái),北京超算還有哪些規(guī)劃與布局呢?
甄亞楠:算力資源方面,目前除了北京以外,我們已經(jīng)在內(nèi)蒙古、寧夏等地建設(shè)了大型的算力中心,同時(shí)也有規(guī)劃繼續(xù)去擴(kuò)容算力中心地域以及算力中心的規(guī)模。
同時(shí),在應(yīng)用場(chǎng)景方面,我們采用了按需建設(shè)的算力資源建設(shè)模式,根據(jù)用戶(hù)的實(shí)際業(yè)務(wù)需求來(lái)去建設(shè)匹配用戶(hù)業(yè)務(wù)的算力資源。這樣可以使用戶(hù)業(yè)務(wù)得到有效的適應(yīng),來(lái)提升用戶(hù)業(yè)務(wù)的性能。
從整個(gè)產(chǎn)品規(guī)劃的角度而言,北京超算目前已經(jīng)形成了4大產(chǎn)品線,基于超算云和智算云分別去提供 CPU以及GPU相關(guān)的算力資源,同時(shí)也衍生出了“行業(yè)云”的解決方案�?梢栽诠I(yè)仿真、氣象海洋、生命科學(xué)等領(lǐng)域?yàn)橛脩?hù)提供非常強(qiáng)的行業(yè)解決方案,保證用戶(hù)可以在特殊的行業(yè)場(chǎng)景里邊能夠?qū)I(yè)務(wù)和算力進(jìn)行有效的結(jié)合。
同時(shí)我們也提供「設(shè)計(jì)仿真云」,可以面向于CAD場(chǎng)景,給用戶(hù)去提供非常有效的設(shè)計(jì)環(huán)境。
基于北京超算十余載的服務(wù)經(jīng)驗(yàn),如今,我們也逐漸在將強(qiáng)大的運(yùn)營(yíng)能力進(jìn)行有效輸出,幫助相關(guān)的政府/企業(yè)建設(shè)算力中心,同時(shí)提供有效的運(yùn)營(yíng)服務(wù),來(lái)幫助他們?nèi)ヌ嵘麄(gè)平臺(tái)的運(yùn)營(yíng)效率和運(yùn)營(yíng)效果。
撰稿:雷峰網(wǎng) 郭思
圖文編輯:韓岳彤
審核:劉芳
審核發(fā)布:胡永利
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...