當前,為推進IT支撐系統集約化建設和運營,進一步發揮集中化能力優勢,IT云成為運營商IT支撐系統建設的基礎架構。但在IT云資源池部署過程中,服務器技術面臨多個新挑戰,主要體現在以下3個方面。
在性能方面,人工智能(AI)應用快速擴張,要求IT云采用高性能GPU服務器。AI已在電信業網絡覆蓋優化、批量投訴定界、異常檢測/診斷、業務識別、用戶定位等場景規模化應用。AI應用需求的大量出現,要求數據中心部署的服務器具有更好的計算效能、吞吐能力和延遲性能,以傳統通用x86服務器為核心的計算平臺顯得力不從心,GPU服務器因此登上運營商IT建設的歷史舞臺。
在效率成本方面,IT云部署通用服務器存在弊端,催生定制化整機柜服務器應用需求。在IT云建設過程中,由于業務需求增長快速,IT云資源池擴容壓力較大,云資源池中的服務器數量快速遞增,上線效率亟需提高。同時,傳統通用服務器部署模式周期長、部署密度低的劣勢,給數據中心空間、電力、建設成本和高效維護管理都帶來了較大的挑戰。整機柜服務器成為IT云建設的另一可選方案。
在節能方面,AI等高密度應用場景的快速發展,驅動液冷服務器成為熱點。隨著AI高密度業務應用的發展,未來數據中心服務器功率將從3kW~5kW向20kW甚至100kW以上規模發展,傳統的風冷式服務器制冷系統解決方案已經無法滿足制冷需求,虛擬主機,液冷服務器成為AI應用場景下的有效解決方案。
GPU服務器技術發展態勢及在電信業的應用
GPU服務器技術發展態勢
GPU服務器是單指令、多數據處理架構,亞洲服務器租用,通過與CPU協同進行工作。從CPU和GPU之間的互聯架構進行劃分,GPU服務器又可分為基于傳統PCIe架構的GPU服務器和基于NVLink架構的GPU服務器兩類。GPU服務器具有通用性強、生態系統完善的顯著優勢,因此牢牢占據了AI基礎架構市場的主導地位,國內外主流廠商均推出不同規格的GPU服務器。國外主流廠商有英偉達、英特爾、戴爾等,國內主流廠商包括華為、浪潮、新華三、聯想、曙光等。從GPU服務器性能來看,國內外廠商基本處在同一水準。
GPU服務器在運營商IT云建設中的應用
當前,電信業開始推動GPU服務器在IT云資源池中的應用,省公司現網中已經部署了部分GPU服務器。同時,考慮到GPU成本較高,集團公司層面通過建設統一AI平臺,集中化部署一批GPU服務器,形成AI資源優化配置。從技術選型來看,目前運營商IT云資源池采用英偉達、英特爾等廠商相關產品居多。
GPU服務器在IT云應用中取得了良好的效果。在現網部署的GPU服務器中,與訓練和推理相關的深度學習應用占主要部分,占比超過70%,支撐的業務包括網絡覆蓋智能優化、用戶智能定位、智能營銷、智能稽核等,這些智能應用減少了人工投入成本,提升了工作效率。以智能稽核為例,以往無紙化業務單據的人工稽核平均耗時約48秒/單,而AI稽核平均耗時僅約5秒/單,稽核效率提升達 90%。同時,無紙化業務單據人工稽核成本約1.5元/單,采用GPU進行AI稽核成本約0.048元/單,稽核成本降低達96.8%。
整機柜服務器發展態勢及在電信業的應用
整機柜服務器技術發展態勢
整機柜服務器是按照模塊化設計思路打造的服務器解決方案,系統架構由機柜、網絡、供電、服務器節點、集中散熱、集中管理6個子系統組成,是對數據中心服務器設計技術的一次根本性變革。整機柜服務器將供電單元、散熱單元池化,通過節約空間來提高部署密度,其部署密度通常可以翻倍。集中供電和散熱的設計,使整機柜服務器僅需配置傳統機柜式服務器10%的電源數量就可滿足供電需要,電源效率可以提升10%以上,且單臺服務器的能耗可降低5%。
整機柜服務器在運營商IT云建設中的應用
國內運營商在IT云建設中已經推進了整機柜服務器部署,經過實際應用檢驗,在如下方面優勢明顯。
一是工廠預制,交付工時大幅縮短。傳統服務器交付效率低,采用整機柜服務器將原來在數據中心現場進行的服務器拆包、上架、布線等工作轉移到工廠完成,部署的顆粒度從1臺上升到幾十臺,交付效率大大提升。以一次性交付1500臺服務器為例,交付工作量可減少170~210人天,按每天配10人計算,現場交付時間可節省約17~21天。
二是資源池化帶來部件數量降低,故障率大幅下降。整機柜服務器通過將供電、制冷等部件資源池化,大幅減少了部件數量,帶來故障率的大幅降低。圖1比較了32節點整機柜服務器與傳統1U、2U服務器機型各自的電源部件數量及在一年內的月度故障率情況。由于32節點整機柜服務器含10個電源部件,而32臺1U通用服務器的電源部件為64個,相較而言,整機柜電源部件數減少84.4%。由于電源部件數量的降低,32節點整機柜服務器相對于32臺1U通用服務器的月度故障率也大幅縮減。
圖1 整機柜服務器與傳統機型服務器月度故障率對比