比以往任何時候都更重要的是,對于每個新的數(shù)據(jù)中心工作負載,IT組織必須回答的問題是在哪里運行。如今,最新的企業(yè)計算工作負載是機器學習(或人工智能)的變體,無論是深度學習模型培訓還是推理(使用經(jīng)過培訓的模型),人工智能基礎設施已經(jīng)有太多的選擇,因此很難直接為企業(yè)找到最佳的解決方案。
市場上有各種各樣的人工智能硬件選項,廣泛且快速增長的人工智能云服務范圍,以及用于托管人工智能硬件的各種數(shù)據(jù)中心選項。Nvidia公司是機器學習基礎設施生態(tài)系統(tǒng)中最重要的一家公司,它不僅為全球的人工智能工作負載(Nvidia GPU)銷售和生產大多數(shù)處理器,它還構建了大量運行在這些芯片上的軟件,并銷售自己的人工智能超級計算機。
行業(yè)媒體Datacenter Knowledge(DCK)與Nvidia公司的DGX人工智能超級計算機高級營銷總監(jiān)Charlie Boyle一起探討了人工智能硬件發(fā)展和人工智能基礎設施的發(fā)展趨勢。以下是采訪內容:
DCK:企業(yè)如何決定是將云計算服務用于其機器學習還是購買自己的人工智能硬件采用機器學習?
Charlie Boyle:我們的大多數(shù)客戶都使用內部部署和云計算的組合。我們看到的最大動態(tài)是數(shù)據(jù)所在位置決定處理它的位置。在人工智能環(huán)境中,需要處理大量數(shù)據(jù)才能得到結果。如果所有這些數(shù)據(jù)都已經(jīng)存在于企業(yè)數(shù)據(jù)中心中(企業(yè)可能收集了10~30年的歷史數(shù)據(jù)),那么希望將處理過程盡可能接近企業(yè)所在的位置。因此,它有利于內部部署系統(tǒng)。如果是一家業(yè)務從云端起步的公司,并且其所有客戶數(shù)據(jù)都在云端,那么最好在云平臺中處理這些數(shù)據(jù)。
DCK:是因為很難將大量數(shù)據(jù)移入和移出云端嗎?
Charlie Boyle:這還取決于企業(yè)如何生成數(shù)據(jù)。大多數(shù)企業(yè)的數(shù)據(jù)都是動態(tài)的,因此總是會添加數(shù)據(jù),因此,歐洲服務器,如果他們在系統(tǒng)中收集所有數(shù)據(jù),那么他們就更容易繼續(xù)在內部處理它們。如果他們將大量數(shù)據(jù)聚合到云服務中,那么他們就會在云平臺上處理它。
這適用于生產用例。許多實驗性用例可以從云端開始,企業(yè)只需啟動瀏覽器即可訪問人工智能基礎設施,但隨著他們轉向生產,企業(yè)就可以做出本地決策、財務決策、安全決策,以及是否更好地在內部部署或在云平臺上處理它。
Nvidia公司的客戶通常在內部進行一些人工智能模型培訓,因為這是他們的歷史數(shù)據(jù)所在。他們構建了一個很好的模型,但是該模型隨后由他們的在線服務提供服務——他們在云中基于他們在內部部署構建的模型進行的推理。
DCK:對于那些在自己的內部部署或托管數(shù)據(jù)中心運行人工智能工作負載的企業(yè),考慮到機架的功率密度越來越高,您認為他們將采用哪種冷卻方法?
Charlie Boyle:數(shù)據(jù)中心采用液體冷卻還是空氣冷卻始終是一個熱門的爭論話題,我們一直在研究這個問題。一般來說,數(shù)據(jù)中心運行大量服務器機架,有的多達50個,采用傳統(tǒng)的空氣冷卻設施效果良好。當運行更高功率密度的機架時,例如機架的功率為30千瓦~50千瓦,通常采用水冷式熱交換器進行冷卻,這就是在數(shù)據(jù)中心實施的最新冷卻措施,因為這樣數(shù)據(jù)中心就不會改造冷卻系統(tǒng)本身的管道。
現(xiàn)在,我們的一些OEM合作伙伴也基于我們的GPU構建可以直接冷卻芯片的水冷系統(tǒng),一些企業(yè)希望構建一個超級密集的計算基礎設施,他們將會提前部署冷卻基礎設施。但是,通過我們與大多數(shù)托管服務提供商的合作,發(fā)現(xiàn)只有水冷系統(tǒng)才能更好地支持高功率密度的機架運行。
直接冷卻芯片更像是一個運營問題。我們的技術現(xiàn)在可以做到,但如何為它提供服務呢?對于正常運營的企業(yè)來說,這將是一個學習曲線。
DCK:NVIDIA DGX系統(tǒng)和其他GPU驅動的人工智能硬件如此密集,以至于無法采用空氣冷卻進行冷卻嗎?
Charlie Boyle:我們所有系統(tǒng)都可以采用空氣冷卻和液體冷卻技術。主要是因為我看到大多數(shù)客戶都在采用這些方法。在我們對于功率密度的處理并不是固有的方法,因為在可預見的將來,我們不能實施空氣冷卻或混合冷卻技術,這主要是因為大多數(shù)客戶會受到機架功率的限制。
現(xiàn)在,我們正在運行30~40kW的機架。當然也可以運行100kW和200kW的機架,但現(xiàn)在沒有人愿意部署這樣功率密度的機架。那么可以采用液體冷卻嗎?也許,但它確實是每個客戶最有效的選擇。我們看到客戶采用混合體冷卻方式,他們正在回收廢熱。我們將繼續(xù)關注這一點,繼續(xù)與在這些公司合作,看看他們的方法是否具有意義。
我們的工作站產品DGX station采用的是一種內部閉環(huán)水冷技術。但是在數(shù)據(jù)中心基礎設施的服務器端,大多數(shù)客戶還沒有采用。
DCK:大多數(shù)企業(yè)數(shù)據(jù)中心甚至不能冷卻30kW和40kW機架。這是DGX產品銷售的障礙嗎?