“千淘萬漉雖辛苦,吹盡狂沙始到金”。
經歷十年磨煉,OpenStack成功吸引了來自世界范圍內50多個國家、近200個不同組織中近萬位開發人員的代碼貢獻,是金融、通信等多個重要領域上云的事實標準,在關鍵行業落地并承載核心生產業務。
浪潮作為OIF基金會的創始黃金會員,始終秉承“源于開源,云服務器租用,饋于開源”的宗旨,多年來持續投入社區貢獻。憑借著在代碼提交數、完成藍圖數、補丁修復數等方面的突出表現,浪潮在社區最新發布的W版本中繼續保持領先,繼V版本以來社區貢獻蟬聯中國第一,歐洲服務器,成為OpenStack全球重要的技術引領者。
據悉,在新發布的W版本中,浪潮云海主要聚焦Nova、Cyborg、Manila、Ironic、關鍵中間件等核心項目,補足核心功能并進行大量的優化工作,有效提高了OpenStack的成熟度。
那么在這些核心項目中,浪潮云海究竟做了哪些重要的優化工作?具體來看!
「Cyborg優化」
作為智能硬件加速設備管理項目,通過采用Cyborg可以在云平臺上方便使用GPU、vGPU、FPGA、SSD、SR-IOV等智能設備,有效優化加速設備(例如,GPU、vGPU、SR-IOV等)在Nova項目的配置復雜,使用不便以及難以運維等問題。
在最新發布的W版本中,浪潮云海OS技術團隊在Cyborg項目引入了Inspur NVMe SSD 驅動,可以做到自動發現OpenStack平臺上的Inspur NVMe SSD設備并自動上報到資源管理系統,用戶在創建云主機時便可使用。
圖1 Inspur NVMe SSD設備驅動實現原理
一直以來,浪潮云海OS研發團隊都秉承用戶至上的原則,從功能易用性和穩定性的角度開發支持了在線綁定/解綁硬件加速設備的功能,包括GPU、vGPU、Inspur NVMe SSD等加速設備,有效提升了操作的便捷性,降低了運維管理的難度,提高了 GPU、vGPU、NVMe SSD、FPGA等硬件加速設備的使用效率。
「Nova優化」
Nova項目作為OpenStack項目的核心模塊,負責計算資源調度管理,例如云主機的創建、調度、生命周期管理等功能。早在U版本中已經實現了Nova和Cyborg的交互機制,支持在創建云主機時指定GPU、FPGA、NVMe SSD等加速器設備,以此來提升云主機圖形圖像處理、FPGA編程、IO讀寫的能力,同時也豐富了云主機設備使用的多樣性。
“在最新的Wallaby版本中,我們完善了對綁定加速器設備云主機的操作,完成了對加速器云主機的擱置和取消擱置功能,彌補了加速器云主機的高級特性。如圖2所示在擱置過程中,我們需要銷毀云主機,同時釋放加速器設備以提高加速器設備的利用率。”
圖2 擱置加速器云主機實現原理
圖3 取消擱置加速器云主機操作實現原理
如圖3表示,在取消擱置過程恰恰與此相反,需重新調度物理主機,以獲取滿足加速器設備的物理主機,然后請求Cyborg創建加速器設備的映射關系,以重新綁定加速器設備。“我們還在持續完善加速器云主機的掛起/恢復、在線/離線遷移、調整配置等高級特性,以方便用戶高效使用云平臺的加速設備,持續貢獻社區,讓更多人受益。”
「Masakari優化」
Masakari項目是專注于OpenStack云平臺高可用的開源項目,實現了云主機、關鍵進程和物理機三個不同層次的高可用,主要通過Monitor檢測云主機、關鍵進程和物理主機的故障,一旦檢測到故障,就觸發故障恢復機制,恢復云主機和物理主機的重要業務。
浪潮云海OS研發團隊則通過客戶訴求、現場問題反饋等方式,有針對性的對Masakari項目進行深入研究和探討,設計了針對云主機、關鍵進程和物理機等多層面故障檢測、判斷處理矩陣,能有效應對云平臺可能觸發的故障場景。
在最新的Wallaby版本,技術團隊在主機狀態檢測機制的基礎上進行創新,提出并實現了主機連續檢測機制,通過檢測主機的網絡連接狀態以確定主機是否故障,并設定故障節點云主機的疏散策略,增強了云平臺的高可靠性。
圖4中(左)為Masakari項目原故障檢測機制,Monitor只探測一次,當云平臺存在網絡抖動時存在誤判風險;圖4(右)為改進后的故障檢測機制,通過多次探測平滑預測物理主機的節點狀態,管理員可設定Monitor探測閾值,僅當連續檢測到節點故障時才會觸發主機故障的高可用事件,提高主機故障檢測的可靠性。
圖4 主機狀態連續檢測實現機制