Nvidia正在瞄準更具有挑戰性的人工智能工作負載,發布了自己首個基于Arm的數據中心CPU。
Nvidia在今天舉行的GTC線上大會活動中發布了這款名為“Grace”的新CPU,據說是10000個工程年的成果,設計旨在滿足當前最強大的AI應用對計算力的巨大需求,包括自然語言處理、推薦系統、AI超級計算機驅動的藥物發現等。
Nvidia表示,Grace可以在配置了Nvidia知名GPU(例如Nvidia A100 GPU)的系統發揮最高性能。Nvidia高管表示,當與Nvidia GPU緊密結合時,基于Grace的系統性能達到目前運行英特爾x86 CPU的DGX的系統的10倍。
Nvidia稱,Grace CPU以美國計算機編程先驅Grace Hopper的名字命名,旨在為新型超級計算機提供動力,早期用戶瑞士國家計算中心(CSCS)將推出新型Alps超級計算機。
Alps系統目前是由HPE打造的,基于HPE的Cray EX超級計算機產品線,由Nvidia HGX超級計算平臺提供支撐,該平臺采用了A100 GPU、Nvidia High-Performance Computing軟件開發套件以及此次推出的Grace CPU。一旦系統啟動并運行起來,將可以在短短兩天內訓練出全球最大的自然語言處理模型GPT-3,比2.8Periflops的Selene超級計算機快近7倍,Selence是目前經過MLPerf認證的全球最快的AI超級計算機。
Nvidia加速計算高級總監Paresh Kharya在新聞發布會上表示,Grace是首款旨在滿足當今全球功能最強大的AI模型呈現爆炸式增長的CPU。他舉例說,GPT-3模型需要處理1000多億個參數,而現有CPU架構根本無法滿足這個需求。
Kharya說:“巨型模型正在推高著現有架構的極限。”問題在于,這些模型是不支持GPU內存的,只支持系統內存,而后者速度較慢。
Kharya解釋說,Grace CPU是為升級計算架構以更好處理AI和HPC而生的。他說:“我們全新打造了一款CPU,以兌現這個承諾。這款CPU能夠與GPU緊密結合,提供一個消除了瓶頸的平衡架構。”
瑞士國家計算中心將在那些能夠受益于自然語言理解的眾多科研領域中采用Alps超級計算機,例如分析成千上萬篇科學論文,創造可以用于輔助藥物發現的新分子。
瑞士國家計算中心主管Thomas Schulthess表示:“Nvidia新推出的Grace CPU使我們能夠融合AI技術和經典的超級計算技術來解決計算科學中最棘手的問題。”
Nvidia表示,用于新系統的Grace CPU將通過Nvidia NVLink互連技術鏈接到Nvidia GPU上。Nvidia還補充說,Grace CPU每秒連接速度高達900Gb,總帶寬比其他計算機服務器高30倍。
Nvidia表示,Grace CPU還得到了LPDDR5x內存子系統的支持,讓該系統與DDR4內存相比帶寬和能源效率分別提高1倍和10倍。當然,Grace CPU還將支持Nvidia HPC SDK、全套CUDA和CUDA-X GPU應用庫。
Constellation Research分析師Holger Mueller表示,隨著Grace的推出,Nvidia這家歷史悠久的公司將開啟發展的新篇章。他說,Nvidia將宣布第一個基于Arm技術的完整AI平臺,以應對AI帶來的最大挑戰。
Mueller說:“這將讓Nvidia能夠快速有效地把數據移動到GPU和數據處理單元中,是Nvidia AI產品組合的自然延伸,對于其他基于云的AI和ML工作負載來說,將是他們在本地環境中的一大挑戰。而對那些希望在哪運行工作負載有更多選擇的公司來說,是個好消息。”
Moor Insights&Strategy的分析師Patrick Moorhead表示,Grace CPU是2021年GTC大會迄今為止最重大的公告。
“Grace是緊密集成型CPU,可用于有1萬億多個參數的AI模型,而這對于通過PCIe鏈接的CPU和GPU經典組合來說是難以解決的。Grace專注于IO和內存帶寬,與GPU共享主內存,因此你肯定不會將它與AMD或者英特爾的通用型數據中心CPU相混淆。”
Nvidia首席執行官黃仁勛在大會主題演講中表示,如今AI工作負載中所使用的數據量是驚人的。Grace的推出意味著Nvidia現在除了GPU和數據處理單元外,還擁有第三種用于AI的基礎技術,從而使其能夠針對這些工作負載完全重新構建數據中心。他說:“Nvidia現在是一家三芯片公司。”
Nvidia表示,Grace CPU將于2023年全面上市。
全球首個云原生多租戶AI超級計算機
與此同時,企業仍然可以通過Nvidia下一代云原生Nvidia DGX SuperPOD AI硬件的形式,使用功能非常強大的AI超級計算平臺。
新推出的Nvidia DGX SuperPOD(如圖所示)首次配備了Nvidia BlueField-2 DPU數據處理單元,后者可以卸載、加速和隔離數據,域名購買,將用戶安全地連接到Nvidia AI基礎設施。Nvidia表示,BlueField-2 DPU與新的Nvidia Base Command服務相結合,讓多個用戶和團隊可以安全地訪問、共享和操作DGX SuperPOD基礎設施。Base Command可用于為全球數據科學家和開發人員團隊協調AI訓練和操作。
Nvidia DGX A100是這個SuperPOD系統的基本組成部分,同時結合了8個Nvidia頂級A100數據中心GPU與2個CPU和1 TB內存。