北京時間6月25日,由浪潮與OCP基金會聯(lián)合舉辦的首屆OCP開放計算中國日(OCP China Day)在北京圓滿舉行。OCP旨在以開源開放的方式,重構(gòu)當前的數(shù)據(jù)中心硬件,發(fā)展面向下一代數(shù)據(jù)中心的服務器、存儲、網(wǎng)絡、基礎設施等創(chuàng)新硬件。目前,OCP核心會員超過200家。
本次OCP China Day聚焦人工智能、邊緣計算、Open Rack、OpenRMC、SDN等五大前沿技術話題,來自Facebook、LinkedIn、Intel、微軟、百度、騰訊、阿里、諾基亞、中國移動、浪潮等資深技術專家分享了最新技術進展。此外,600㎡的展區(qū)展示著各類成熟的OCP產(chǎn)品和方案。
盡管OCP已成為全球最大的開放硬件社區(qū),但千萬別以為這一硬件社區(qū)對數(shù)據(jù)中心、對計算的貢獻僅在硬件層面。算力的提升需要硬件支持,更離不開軟件優(yōu)化,這早已成為業(yè)界共識。其實,從本次大會OpenRMC、SONiC兩個議題中也能看出,OCP對服務器、數(shù)據(jù)中心的軟件層面也是相當關注。
全面云化下的數(shù)據(jù)中心需求
首先,我們都知道,云計算已成為企業(yè)IT重要組成部分。云計算的大規(guī)模應用也改變了企業(yè)的計算習慣,并對計算架構(gòu)帶來深遠影響。因此,在系統(tǒng)層面,云計算的到來使得企業(yè)對數(shù)據(jù)中心有了進一步需求。
在筆者看來,應對全面云化,企業(yè)對數(shù)據(jù)中心的需求主要集中在三方面:
1.高性能低TCO:云計算、AI發(fā)展,對算力提出了更苛刻的需求,隨著上云需求進一步增加以及AI應用,企業(yè)自然需要數(shù)據(jù)中心交出更多算力。而企業(yè)對數(shù)據(jù)中心算力提升的要求,一定是建立在同等TCO或更優(yōu)TCO基礎之上;
2.高可靠高安全:伴隨著云計算承載業(yè)務的不斷增加,企業(yè)希望數(shù)據(jù)中心的宕機概率盡可能低,即便系統(tǒng)發(fā)生宕機,也要盡可能縮短下線時間保證業(yè)務的持續(xù)性。同時,大數(shù)據(jù)、AI的發(fā)展使得數(shù)據(jù)從存儲資料轉(zhuǎn)為生產(chǎn)資料,如何保證公有云環(huán)境中,自家數(shù)據(jù)的隱私問題也愈發(fā)引起企業(yè)關注;
3.運維的簡化與自動化:面對成千上萬臺服務器,面對本地云需求與遠程邊緣計算需求,系統(tǒng)硬件的快速配置、應用、遠程更新,以及系統(tǒng)故障后,如何實現(xiàn)遠程定位,遠程調(diào)試,這些均成為企業(yè)的關注點。
針對全面云化環(huán)境下的這些需求,那么OCP China Day上,在服務器軟件項目優(yōu)化上,OCP成員英特爾、浪潮做了哪些工作呢?
英特爾對運行管理機制及啟動時間的優(yōu)化
在服務器整個系統(tǒng)中,存在著諸多運行管理平臺,如處理運行管理、電源運行管理、網(wǎng)絡運行管理等。
以處理運行管理平臺為例,SMM是處理器特殊管理模式,它的執(zhí)行會導致處理器和執(zhí)行線程處于掛機狀態(tài),隨著處理核數(shù)不斷增加,SMM頻繁進出使得系統(tǒng)性能進一步下降。
英特爾給出的方案是引入一個PRM平臺運行機制,將過去運行在SMM模式狀態(tài)下的系統(tǒng)運行服務移回到內(nèi)核空間,避免對其他業(yè)務進程阻塞,降低對系統(tǒng)性能的影響。同時,為了保證跟操作系統(tǒng)無縫對接,該方案采用與SMM運行服務同樣的ACPI接口。
在服務器啟動優(yōu)化上,通常而言,服務器系統(tǒng)的啟動時間在幾分鐘或數(shù)十分鐘,這一時間遠滿足不了企業(yè)對業(yè)務快速上線的需求。
對此,英特爾的解決方案是通過對處理器、內(nèi)存等拓撲結(jié)構(gòu)的記錄,實現(xiàn)在系統(tǒng)重啟時避免不必要的初始化操作,并利用處理器的多核能力,加速啟動過程中內(nèi)存的自解,達到縮短系統(tǒng)啟動時間的目標。
浪潮對BMC及Redfish的優(yōu)化
在監(jiān)控服務器健康狀態(tài)及帶外管理服務上,BMC這一嵌入式管理單元的重要性不言而喻,而在全球主要服務器供應商之間,這一重要單元的BMC卻是閉源的,且各家實現(xiàn)差異性較大,這便造成數(shù)據(jù)中心設備統(tǒng)一管理難題。
隨著OpenBMC的提出,浪潮也在不斷進行著對該開源軟件項目的優(yōu)化工作,推動OpenBMC的生態(tài)發(fā)展。具體而言,浪潮推動著服務器實現(xiàn)帶外的在線升級,通過Web UI界面,在不占用服務器網(wǎng)絡帶寬的情況下借助軟件包實現(xiàn)Firmware的刷新和維護工作,進一步提高管理安全性。
同時在故障診斷上,浪潮把標準服務器上的故障診斷軟件和code基于Open BMC做移植和開放,使得整個社區(qū)其他軟件固件均能識別,實現(xiàn)工作互通。
另一方面,IPMI為當前服務器管理的主要技術標準。其缺點在于功能較少,且對于其他擴展功能缺少統(tǒng)一的管理規(guī)范接口約束,directadmin漢化,只適用于中小規(guī)模的數(shù)據(jù)中心管理。而現(xiàn)代大規(guī)模數(shù)據(jù)中心平均幾千臺甚至上萬臺服務器才配置一名數(shù)據(jù)中心管理員,需要管理方案提供更多功能以及相應的接口。
與IPMI不同,Redfish技術標準擴展性好,directadmin安裝,功能豐富,針對不同供應商不同種類的基礎設施提供了規(guī)范化易集成的管理接口。除服務器外,Redfish逐漸擴展對存儲、網(wǎng)絡方面的支持。浪潮也積極參與到這一下一代數(shù)據(jù)中心管理標準的建設中去,并實現(xiàn)了業(yè)內(nèi)首款符合OCP Redfish Profile規(guī)范的OpenBMC版本。