北京時(shí)間6月25日,由浪潮與OCP基金會(huì)聯(lián)合舉辦的首屆OCP開放計(jì)算中國(guó)日(OCP China Day)在北京圓滿舉行。OCP旨在以開源開放的方式,重構(gòu)當(dāng)前的數(shù)據(jù)中心硬件,發(fā)展面向下一代數(shù)據(jù)中心的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、基礎(chǔ)設(shè)施等創(chuàng)新硬件。目前,OCP核心會(huì)員超過200家。
本次OCP China Day聚焦人工智能、邊緣計(jì)算、Open Rack、OpenRMC、SDN等五大前沿技術(shù)話題,來自Facebook、LinkedIn、Intel、微軟、百度、騰訊、阿里、諾基亞、中國(guó)移動(dòng)、浪潮等資深技術(shù)專家分享了最新技術(shù)進(jìn)展。此外,600㎡的展區(qū)展示著各類成熟的OCP產(chǎn)品和方案。
盡管OCP已成為全球最大的開放硬件社區(qū),但千萬別以為這一硬件社區(qū)對(duì)數(shù)據(jù)中心、對(duì)計(jì)算的貢獻(xiàn)僅在硬件層面。算力的提升需要硬件支持,更離不開軟件優(yōu)化,這早已成為業(yè)界共識(shí)。其實(shí),從本次大會(huì)OpenRMC、SONiC兩個(gè)議題中也能看出,OCP對(duì)服務(wù)器、數(shù)據(jù)中心的軟件層面也是相當(dāng)關(guān)注。
全面云化下的數(shù)據(jù)中心需求
首先,我們都知道,云計(jì)算已成為企業(yè)IT重要組成部分。云計(jì)算的大規(guī)模應(yīng)用也改變了企業(yè)的計(jì)算習(xí)慣,并對(duì)計(jì)算架構(gòu)帶來深遠(yuǎn)影響。因此,在系統(tǒng)層面,云計(jì)算的到來使得企業(yè)對(duì)數(shù)據(jù)中心有了進(jìn)一步需求。
在筆者看來,應(yīng)對(duì)全面云化,企業(yè)對(duì)數(shù)據(jù)中心的需求主要集中在三方面:
1.高性能低TCO:云計(jì)算、AI發(fā)展,對(duì)算力提出了更苛刻的需求,隨著上云需求進(jìn)一步增加以及AI應(yīng)用,企業(yè)自然需要數(shù)據(jù)中心交出更多算力。而企業(yè)對(duì)數(shù)據(jù)中心算力提升的要求,一定是建立在同等TCO或更優(yōu)TCO基礎(chǔ)之上;
2.高可靠高安全:伴隨著云計(jì)算承載業(yè)務(wù)的不斷增加,企業(yè)希望數(shù)據(jù)中心的宕機(jī)概率盡可能低,即便系統(tǒng)發(fā)生宕機(jī),也要盡可能縮短下線時(shí)間保證業(yè)務(wù)的持續(xù)性。同時(shí),大數(shù)據(jù)、AI的發(fā)展使得數(shù)據(jù)從存儲(chǔ)資料轉(zhuǎn)為生產(chǎn)資料,如何保證公有云環(huán)境中,自家數(shù)據(jù)的隱私問題也愈發(fā)引起企業(yè)關(guān)注;
3.運(yùn)維的簡(jiǎn)化與自動(dòng)化:面對(duì)成千上萬臺(tái)服務(wù)器,面對(duì)本地云需求與遠(yuǎn)程邊緣計(jì)算需求,系統(tǒng)硬件的快速配置、應(yīng)用、遠(yuǎn)程更新,以及系統(tǒng)故障后,如何實(shí)現(xiàn)遠(yuǎn)程定位,遠(yuǎn)程調(diào)試,這些均成為企業(yè)的關(guān)注點(diǎn)。
針對(duì)全面云化環(huán)境下的這些需求,那么OCP China Day上,在服務(wù)器軟件項(xiàng)目?jī)?yōu)化上,OCP成員英特爾、浪潮做了哪些工作呢?
英特爾對(duì)運(yùn)行管理機(jī)制及啟動(dòng)時(shí)間的優(yōu)化
在服務(wù)器整個(gè)系統(tǒng)中,存在著諸多運(yùn)行管理平臺(tái),如處理運(yùn)行管理、電源運(yùn)行管理、網(wǎng)絡(luò)運(yùn)行管理等。
以處理運(yùn)行管理平臺(tái)為例,SMM是處理器特殊管理模式,它的執(zhí)行會(huì)導(dǎo)致處理器和執(zhí)行線程處于掛機(jī)狀態(tài),隨著處理核數(shù)不斷增加,SMM頻繁進(jìn)出使得系統(tǒng)性能進(jìn)一步下降。
英特爾給出的方案是引入一個(gè)PRM平臺(tái)運(yùn)行機(jī)制,將過去運(yùn)行在SMM模式狀態(tài)下的系統(tǒng)運(yùn)行服務(wù)移回到內(nèi)核空間,避免對(duì)其他業(yè)務(wù)進(jìn)程阻塞,降低對(duì)系統(tǒng)性能的影響。同時(shí),為了保證跟操作系統(tǒng)無縫對(duì)接,該方案采用與SMM運(yùn)行服務(wù)同樣的ACPI接口。
在服務(wù)器啟動(dòng)優(yōu)化上,通常而言,服務(wù)器系統(tǒng)的啟動(dòng)時(shí)間在幾分鐘或數(shù)十分鐘,這一時(shí)間遠(yuǎn)滿足不了企業(yè)對(duì)業(yè)務(wù)快速上線的需求。
對(duì)此,英特爾的解決方案是通過對(duì)處理器、內(nèi)存等拓?fù)浣Y(jié)構(gòu)的記錄,實(shí)現(xiàn)在系統(tǒng)重啟時(shí)避免不必要的初始化操作,并利用處理器的多核能力,加速啟動(dòng)過程中內(nèi)存的自解,達(dá)到縮短系統(tǒng)啟動(dòng)時(shí)間的目標(biāo)。
浪潮對(duì)BMC及Redfish的優(yōu)化
在監(jiān)控服務(wù)器健康狀態(tài)及帶外管理服務(wù)上,BMC這一嵌入式管理單元的重要性不言而喻,而在全球主要服務(wù)器供應(yīng)商之間,這一重要單元的BMC卻是閉源的,且各家實(shí)現(xiàn)差異性較大,這便造成數(shù)據(jù)中心設(shè)備統(tǒng)一管理難題。
隨著OpenBMC的提出,浪潮也在不斷進(jìn)行著對(duì)該開源軟件項(xiàng)目的優(yōu)化工作,推動(dòng)OpenBMC的生態(tài)發(fā)展。具體而言,浪潮推動(dòng)著服務(wù)器實(shí)現(xiàn)帶外的在線升級(jí),通過Web UI界面,在不占用服務(wù)器網(wǎng)絡(luò)帶寬的情況下借助軟件包實(shí)現(xiàn)Firmware的刷新和維護(hù)工作,進(jìn)一步提高管理安全性。
同時(shí)在故障診斷上,浪潮把標(biāo)準(zhǔn)服務(wù)器上的故障診斷軟件和code基于Open BMC做移植和開放,使得整個(gè)社區(qū)其他軟件固件均能識(shí)別,實(shí)現(xiàn)工作互通。
另一方面,IPMI為當(dāng)前服務(wù)器管理的主要技術(shù)標(biāo)準(zhǔn)。其缺點(diǎn)在于功能較少,且對(duì)于其他擴(kuò)展功能缺少統(tǒng)一的管理規(guī)范接口約束,directadmin漢化,只適用于中小規(guī)模的數(shù)據(jù)中心管理。而現(xiàn)代大規(guī)模數(shù)據(jù)中心平均幾千臺(tái)甚至上萬臺(tái)服務(wù)器才配置一名數(shù)據(jù)中心管理員,需要管理方案提供更多功能以及相應(yīng)的接口。
與IPMI不同,Redfish技術(shù)標(biāo)準(zhǔn)擴(kuò)展性好,directadmin安裝,功能豐富,針對(duì)不同供應(yīng)商不同種類的基礎(chǔ)設(shè)施提供了規(guī)范化易集成的管理接口。除服務(wù)器外,Redfish逐漸擴(kuò)展對(duì)存儲(chǔ)、網(wǎng)絡(luò)方面的支持。浪潮也積極參與到這一下一代數(shù)據(jù)中心管理標(biāo)準(zhǔn)的建設(shè)中去,并實(shí)現(xiàn)了業(yè)內(nèi)首款符合OCP Redfish Profile規(guī)范的OpenBMC版本。