[No.X001-2]
2023年1月6日,由稀土掘金技術(shù)社區(qū)與 Intel 聯(lián)合發(fā)起的第一屆「掘金未來大會」在北京成功舉行。
大會上,Intel Habana 中國區(qū)業(yè)務(wù)總監(jiān)于明揚帶來了Intel 助力 AI 大模型浪潮下,如何幫助企業(yè)進(jìn)行數(shù)字化創(chuàng)新和變革。他提到,AI 大模型是最具想象力的科技發(fā)展方向之一,模型不止于“大”,通用、開放、高效、善良,是 AI 大模型的理想標(biāo)準(zhǔn)。目前,大模型生態(tài)已經(jīng)達(dá)到了一個比較完善的地步,可以方便很多的開發(fā)者去進(jìn)行研究和分析,甚至開始進(jìn)行部署。但隨著模型參數(shù)與數(shù)據(jù)集規(guī)模不斷增大,無形中帶來了許多問題和挑戰(zhàn),其中,開源是大模型未來發(fā)展中的一個非常重要的手段。
于明揚預(yù)測,大模型是 AI 領(lǐng)域里一個新的科技創(chuàng)新,AI 大模型有可能帶來下一輪人工智能的發(fā)展浪潮。合作、開源將會給大模型的發(fā)展帶來更大的動力。隨著大模型的發(fā)展,在數(shù)據(jù)安全、倫理道德、模型易用性以及模型友好程度等各個方面,通過大家的探討能夠去更加完善,保證大模型在未來的使用當(dāng)中能夠真正地幫助和解決實際問題,而不會去造成更多的困擾。
大模型的訓(xùn)練,需要“大數(shù)據(jù)+大算力+強(qiáng)算法”,英特爾基于這三個方面提出相關(guān)的解決方案,來幫助客戶去克服目前大模型部署和使用中的問題。目前英特爾SPR+Habana/Xe+OpenAPI的完整平臺已經(jīng)在一些行業(yè)中得到驗證,利用并行異構(gòu)系統(tǒng)解決數(shù)據(jù)獲取、處理、計算和存儲,實現(xiàn)大模型的高效訓(xùn)練與推理。
以下為Intel Habana 中國區(qū)業(yè)務(wù)總監(jiān)于明揚演講全文:
今天我給大家?guī)硎�,Intel 助力 AI 大模型浪潮下,如何幫助企業(yè)進(jìn)行數(shù)字化創(chuàng)新和變革。
大家都了解,英特爾主要的產(chǎn)品是基礎(chǔ)的計算平臺,同時英特爾也向很多客戶提供各種各樣的軟件的中間解決方案。在未來一段時間里,尤其是在人工智能的發(fā)展階段中,越來越多的大模型應(yīng)用場景出現(xiàn)。在大模型這一新業(yè)態(tài)下如何建立完整的生態(tài)環(huán)境,這是很多企業(yè)必須要考慮事情。在此情況下,我們帶來了一些新的想法,借助這個機(jī)會跟大家交流,傾聽大家的一些意見,不斷去地改進(jìn)整個生態(tài)。
今天的介紹主要圍繞幾個方面:
●簡單回顧一下大模型的發(fā)展歷史,以及目前大模型在整個行業(yè)中的使用情況;
●針對大模型在很多行業(yè)中普遍出現(xiàn)的一些問題,英特爾嘗試提供的一些解決方案,供大家參考;
●從英特爾的角度,對大模型未來的發(fā)展評估和分析。
大模型生態(tài)已經(jīng)初具規(guī)模
2017 年, Transformer 結(jié)構(gòu)的提出,使深度學(xué)習(xí)模型參數(shù)達(dá)到了上億的規(guī)模。到了 2019 年,Google 率先發(fā)布了第一個大規(guī)模的語言模型 Bert,其參數(shù)首次超過 3 億規(guī)模。但很快在 2020 年,OpenAI 推出了更大規(guī)模的語言訓(xùn)練模型 GPT-3,其參數(shù)達(dá)到了 1750 億。僅一年時間,整個模型的規(guī)模就從億級突破到了上千億。但這種高速的發(fā)展并沒有結(jié)束,在今年又出現(xiàn)了一些新的常規(guī)業(yè)態(tài)大模型,比如 Stability AI,它發(fā)布的文字到圖像的創(chuàng)新模型 Diffusion 。去年年底剛剛出現(xiàn)了 ChatGPT, 以及 OpenAI 今年即將發(fā)布的GPT-4,預(yù)期它們帶來的模型參數(shù)會有更快速的增長。
大模型的參數(shù)和數(shù)據(jù)規(guī)模的增長,會帶來什么樣的變化?首先,大模型集成了各種不同模態(tài)下的數(shù)據(jù),從傳統(tǒng)的有限的 AI 擴(kuò)展到更多的應(yīng)用場景;其次,大模型通過預(yù)訓(xùn)練以及針對下游業(yè)務(wù)進(jìn)行的預(yù)調(diào)整,可以適用于各種各樣的細(xì)分應(yīng)用場景。它可以把各種結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)結(jié)合起來,幫助更多的行業(yè)完成人工智能部署的要求;隨著大模型的參數(shù)和數(shù)據(jù)量不斷增加,大模型的整體訓(xùn)練精度也得到了不斷地提高�,F(xiàn)在的自然語言處理的精度已經(jīng)非常接近于人的處理水平,這也是大模型帶來的巨大變化。
另外,大模型通過一些自監(jiān)督的學(xué)習(xí)方法,很大程度上解決了傳統(tǒng)人工智能中對于數(shù)據(jù)標(biāo)注的高成本、長周期和精確度的問題。大模型的業(yè)務(wù)發(fā)展越來越快。過去,大模型主要針對語言模型的發(fā)展;現(xiàn)在,大模型已經(jīng)突破了傳統(tǒng)的自然語言處理,發(fā)展到對圖像的處理,以及一些自動模式識別等等,所以大模型的業(yè)務(wù)場景已經(jīng)突破了傳統(tǒng)且最早的定義限制。
再看大模型生態(tài)。大模型生態(tài)是比較完善的,雖然一些傳統(tǒng)的人工智能訓(xùn)練框架,比如 Pytorch 和 Tensorflow,對于運行一些大模型的訓(xùn)練還是有局限性,但是在行業(yè)內(nèi),越來越多的廠家已經(jīng)參與到大模型框架的開發(fā)中,比如,微軟基于 Pytorch 開發(fā)了 DeepSpeed,以及國內(nèi)的一些廠家,百度、阿里、華為等等,都推出了一些針對大模型的改良框架,很好地支持了目前很多通用的大模型訓(xùn)練。因此,大模型生態(tài)已經(jīng)初具規(guī)模。
其次,從大模型開源生態(tài)講,已經(jīng)有很多廠家提供了大模型開源環(huán)境,比如,Huggingface、Stability AI、Meta 開源的的OPT等,他們都提供了深度開源的代碼,供大家進(jìn)行二次開發(fā)。所以大模型生態(tài)已經(jīng)達(dá)到了一個比較完善的地步,可以方便很多的開發(fā)者去進(jìn)行研究和分析,甚至開始進(jìn)行部署。
模型參數(shù)與數(shù)據(jù)集規(guī)模不斷增大
在整個大模型的發(fā)展中,很多大模型的業(yè)務(wù)已經(jīng)開始落地,比如,智源實驗室推出“悟道”大模型已經(jīng)用于冬奧會上手語播報數(shù)字人;華為采用盤古CV大模型平臺,在無人機(jī)電力巡檢中獲得了一些實際效果。
大模型看似發(fā)展已經(jīng)很好了,為什么我們在生活中對大模型的感受并不是很強(qiáng)烈?對比最早的人工智能的應(yīng)用,我們會感覺到大模型好像離我們很遠(yuǎn),這并不是說大模型不適合日常應(yīng)用場景,而是大模型的使用有一定的門檻,這種門檻造成了大模型在很多應(yīng)用場景下的部署以及使用的瓶頸。
首先,大模型的數(shù)據(jù)量很大,其次它的整個模型參數(shù)也是一個非常高的數(shù)量級,并且隨著大模型的演變和發(fā)展,參數(shù)規(guī)模與數(shù)據(jù)集規(guī)模不斷地呈指數(shù)級增加。
舉一個例子,GPT-3 最大的模型參數(shù)量達(dá)到了 1750 億,訓(xùn)練數(shù)據(jù)超過了 45TB,如果要完成一次 GPT-3 完整的訓(xùn)練過程,大約需要 3.14E FLOPS 的算力。這意味著什么?全世界最高效的 HPC 集群的理論計算峰值才剛剛達(dá)到這個數(shù)字,我們不可能建立如此大的集群來訓(xùn)練一個模型,這無形之中造成了大模型發(fā)展的最大瓶頸,就是如何解決訓(xùn)練中的算力要求。除此之外,大模型還對平臺的部署提出了很多新的要求,比如,在分布式并行的場景下,如何提高整個系統(tǒng)的使用效率?如何解決在大模型中很多核心算法的利用率問題?這些問題對于很多中小企業(yè)和普通開發(fā)者造成了很大障礙。
大模型在行業(yè)中之所以很難廣泛應(yīng)用,是因為它的算力,以及對整個開發(fā)環(huán)境的要求,使整個生態(tài)還是有一定的困難和門檻。如何解決這個問題,就是 Intel 一直在嘗試和努力探索的方向。Intel 已經(jīng)與行業(yè)內(nèi)很多合作伙伴去建立了開源合作基礎(chǔ)。開源是大模型未來發(fā)展中的一個非常重要的手段。
首先,開源可以集中各個方面的能力和資源解決模型當(dāng)中的優(yōu)化問題,同時,利用開源可以把很多計算資源集中起來完成對大模型的訓(xùn)練。另外,開源還可以解決很多大模型未來部署實施中的一些顧慮,提出解決方法。因此,開源是解決大模型未來發(fā)展的一個最重要的手段。其次,一些企業(yè)開始嘗試把一些大模型拆分成針對于特殊應(yīng)用場景的小規(guī)模訓(xùn)練集,保證一些模型在特定場景下也可以部署和使用,這是一種解決方案。同時,各地政府和一些研究機(jī)構(gòu)也在部署自己的算力集群,通過社會層面去解決算力需求的問題。
還有一個趨勢是加速大模型的使用。對于模型的訓(xùn)練來說并不見得是有非常強(qiáng)的要求,很多普通用戶更多的是希望在業(yè)務(wù)中去部署大模型,這種大模型的部署需要推理的能力。如何解決高效、低成本、環(huán)保的推理解決方案,這也是大模型部署當(dāng)中需要考慮的一個問題。現(xiàn)在,Intel 已經(jīng)和第三方廠家去共同努力給客戶提供一個更好的調(diào)優(yōu)以及進(jìn)行二次開發(fā)的環(huán)境,幫助很多客戶解決他們在未來大模型使用和部署當(dāng)中遇到的一些問題。
大模型中最核心的三個點:大數(shù)據(jù)、大算力、強(qiáng)算法
和開源的大模型相比,現(xiàn)在很多非開源模型還是有整體優(yōu)勢的。在整體訓(xùn)練的精確度上,它和開源相比還是有一定的優(yōu)勢,它的一些場景要領(lǐng)先于開源。大模型中最核心的三個點:大數(shù)據(jù):大算力、強(qiáng)算法。根據(jù)這三個點,Intel 提出了解決方案,幫助客戶解決大模型部署和使用中所出現(xiàn)的一些問題。
在大數(shù)據(jù)方面,需要更多的行業(yè)參與者去提供各種數(shù)據(jù)格式的數(shù)據(jù)資源,把這些數(shù)據(jù)整合到一起就有可能去做一個數(shù)據(jù)層面的突破。在算力方面,Intel 為客戶提供高效的算力解決方案。 Intel 也提供一個開源的、友善的以及非常靈活的大數(shù)據(jù)的框架,就是 基于Intel 的 Sapphire Rapids 新一代的至強(qiáng)處理器,Intel Habana 高性價比AI 加速設(shè)備、 Intel 最新的 GPU 的 Xe 處理設(shè)備,以及我們在一直在行業(yè)內(nèi)大力推廣的 oneAPI 的開源框架。
Intel 通過這樣一個完整的平臺去幫助客戶解決大模型訓(xùn)練、推理以及部署當(dāng)中的問題,并且已經(jīng)在一些行業(yè)中獲得了驗證。圖中是Intel 在全球多個地點和客戶共同配合去提供的一個完整的大模型訓(xùn)練和推理部署的解決方案。在這個方案中,可以滿足客戶數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理,以及在整個模型訓(xùn)練和推理中對計算和存儲的要求。目前,國內(nèi)一些地方已經(jīng)開始部署這個平臺,未來 Intel 還會把平臺上的算力資源、集成的 Intel 軟件,以及 Intel 和合作伙伴共同開發(fā)的一些應(yīng)用提供給大家進(jìn)行試用。
在Habana平臺中, Intel 選擇了微軟的 DeepSpeed,之所以選擇 DeepSpeed 這一非開源平臺,是因為非開源的大規(guī)模框架平臺有一定的優(yōu)勢,一方面,它在計算精度上比開源模型有更高的標(biāo)準(zhǔn),另一方面,它在整個生態(tài)中提供了比較好的 API 的接口,便于客戶進(jìn)行更多的二次開發(fā)和研究。
Intel 最核心考慮的一點就是內(nèi)存的利用率。在大模型使用過程中,內(nèi)存資源的占用是非常耗費平臺整體資源,比如,在訓(xùn)練過程中,很多參數(shù)的內(nèi)容需要保存在 AI 訓(xùn)練加速設(shè)備當(dāng)中,這種資源的占用帶來兩個的因素,第一是隨著占用設(shè)備內(nèi)存的增加,計算規(guī)�?隙ㄒ獢U(kuò)大;第二是數(shù)據(jù)內(nèi)容要不斷地進(jìn)行反復(fù)加載、反復(fù)集中,這樣對整個集群的通訊效率造成很大的壓力。
因此,Intel 嘗試去做一些簡單的優(yōu)化和處理。Intel 選擇 DeepSpeed 提供的一個零冗余的內(nèi)存優(yōu)化方案解決在內(nèi)存分配中所遇到的一些資源上的浪費,通過高效網(wǎng)絡(luò)帶寬解決并行處理的參數(shù)分發(fā)以及參數(shù)集中。現(xiàn)有的網(wǎng)絡(luò)通訊包含兩個方案:一種是交換式解決方案,如英偉達(dá) NVLink 集群化的解決方案;一種是點到點全連通的解決方案。不是說這兩種解決方案哪一種更優(yōu),Intel 也在不斷地嘗試不同的通訊協(xié)議對于大模型的訓(xùn)練帶來的價值。
另外,考慮到在模型的訓(xùn)練過程當(dāng)中,模型狀態(tài)的保存帶來的資源消耗。Intel 利用了 DeepSpeed 里邊的 ZeRO-1、 ZeRO-2,甚至 ZeRO-3 整個的模型參數(shù)的分發(fā)原則,通過不同的模型參數(shù)資源的分配可以把整個模型對于內(nèi)存資源的占用呈指數(shù)級的下降,通過最高級別的內(nèi)存優(yōu)化可以做到內(nèi)存的資源耗費大約只占原來標(biāo)準(zhǔn)模型的 1/ 16。這對于一個大規(guī)模的模型部署來講,是一個非常有價值的嘗試,而且這種嘗試可以看到它的效率、性價比還是非常有優(yōu)勢的。另外,如何去利用不同精度的混合計算去解決計算的資源,以及最后計算結(jié)果的精度的問題,這也是一個非常有意思的嘗試。
目前,在很多的加速設(shè)備中,大家都能支持 BF 16,也能支持 FP 32。在 BF16 的使用場景中,很大程度上節(jié)省資源的占用的問題,但無形當(dāng)中會帶來一些很大的準(zhǔn)確性隱患。在反向計算中可能會喪失一些信息,會引入一些誤差,降低整個模型最后訓(xùn)練的精度,那么結(jié)合 FP32 就可以很好的解決這個問題。Intel 選擇了一個比較靈活的模式,對整個架構(gòu)做了一些探索,這種探索是有一定的收獲,也愿意把這些經(jīng)驗分享給大家。在 Intel Habana網(wǎng)站上,就有非常詳細(xì)的技術(shù)實現(xiàn)方案,包括技術(shù)的原理以及整個參考代碼,大家可以體驗一下優(yōu)化所帶來的效果。
AI 大模型有可能帶動新一輪的人工智能發(fā)展浪潮
從 Intel 角度來講,對于未來大模型是持一個什么樣的看法?首先,在最近一段時間內(nèi),大模型是 AI 領(lǐng)域里一個新的科技創(chuàng)新,AI 大模型有可能帶來下一輪人工智能發(fā)展浪潮。這幾年人工智能的發(fā)展已經(jīng)達(dá)到了一個巔峰,尤其是在圖像識別領(lǐng)域,它基本上超過人的識別能力,但在自然語言的處理方面,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)一直落后于人的處理能力,所以大模型的出現(xiàn)彌補(bǔ)了這個方面不足。
其次,大模型的應(yīng)用場景。傳統(tǒng)的 AI 模型都是碎片化、專業(yè)化的場景,往往針對視頻監(jiān)控、人臉識別以及一些特定的場景,但大模型的使用會把應(yīng)用場景擴(kuò)展到更大,不僅是 AIGC 這種內(nèi)容生成,還會對很多細(xì)分領(lǐng)域帶來新的創(chuàng)新。所以未來大模型有可能會成為人工智能里一個比較集成化的解決方案,對于很多的用戶來說,未來的使用大模型可能會帶來更多的靈活性和易用性。
再者,合作、開源將會給大模型的發(fā)展帶來更大的動力。開源是未來大模型發(fā)展當(dāng)中的一個重要的環(huán)節(jié),在開源中如何幫助大模型去完善解決開源和非開源大模型中的精度誤差,也是要探討的一個問題。
系統(tǒng)廠家也不斷通過硬件性能的提升和架構(gòu)優(yōu)化解決大模型訓(xùn)練和推理的效率。無論是硬件廠家,還是框架和平臺廠家,在這幾年在大模型的調(diào)優(yōu)上都花費了很大的精力,雖然大模型的數(shù)據(jù)和算力要求在不斷的增長,但是像Intel 這樣的硬件廠家也不斷地在硬件設(shè)備上提供能力的補(bǔ)充,盡管跟模型的需求有一定的差異,但是這種差異相信在未來會不斷地縮小。
隨著大模型的發(fā)展,在數(shù)據(jù)安全、倫理道德、模型易用性以及模型友好程度等各個方面,通過大家的探討去進(jìn)一步完善,保證大模型在未來的使用當(dāng)中能夠真正地解決大家的實際問題,而不會去造成更多的困擾。
同時,國內(nèi)的很多研究機(jī)構(gòu)花費了很大的精力建立了自己的專有訓(xùn)練集群,他們?nèi)ラ_發(fā)自己的大模型,但在落地和應(yīng)用中還是有一定的欠缺。希望有更多的廠家企業(yè)參與到未來大模型的生態(tài)環(huán)境當(dāng)中,提供更多的應(yīng)用場景,幫助機(jī)構(gòu)把大模型落實到實際業(yè)務(wù)中,去解決社會面臨的實際問題。謝謝大家!
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...