在近日舉行的《當數(shù)據(jù)中心遇上自動駕駛 數(shù)據(jù)中心營維AI自動駕駛探討》節(jié)目中,萬國數(shù)據(jù)服務有限公司智能化運營總監(jiān)謝云昭與華為技術有限公司數(shù)據(jù)中心產品規(guī)劃總監(jiān)陽必飛共同探討了在云和AI高速發(fā)展的今天, 如何利用AI技術逐步實現(xiàn)數(shù)據(jù)中心營維“自動駕駛”的精彩話題。
在沙龍中,陽必飛首先拋出了華為對未來數(shù)據(jù)中心的構建理念與暢想,即6全4A:云數(shù)據(jù)中心全預制(按需上線,百天千柜)、全模塊(按需擴容,彈性升級)、全綠色(PUE 1.0時代)、全可信(可靠、可用、韌性、隱私、Safety、Security)、全協(xié)同(端邊云協(xié)同、L1L2L3協(xié)同)、全自動(AI自動駕駛)以及邊緣數(shù)據(jù)中心Anytime(部署即上線)、Anywhere(全場景適應)、Anyone(全自動,技能0要求)、Anything(全棧L1L2L3)。
而無論是最近政府提出的新基建概念還是傳統(tǒng)應用,其實都與數(shù)據(jù)中心強相關,數(shù)據(jù)中心作為應用的底座發(fā)揮著不可替代的作用。謝云昭表示,“數(shù)據(jù)中心的業(yè)務連續(xù)性及安全性是非常關鍵的指標,而隨著5G的擴展,數(shù)據(jù)中心已經形成云邊協(xié)同的趨勢,這些新的需求都給傳統(tǒng)數(shù)據(jù)中心運維帶來了挑戰(zhàn)。”
陽必飛也表示,“數(shù)據(jù)中心從全生命周期角度和TCO角度,都需要重點考慮營維中遇到的問題。比如在規(guī)劃與建設中一般占1-2年的時間,剩下10-15年則為運維和運營階段,所以大部分的時間都是和運維和運營相關的。另一方面從商業(yè)角度講,數(shù)據(jù)中心的投資主要是對運維的投資,而這之間對能源的消耗也是非常可觀的。而對運維人力的投入也是非常重要的,因為隨著數(shù)據(jù)中心的規(guī)模和業(yè)務量的不斷擴展,人員的投入也會直線上升。”
數(shù)據(jù)中心營維之痛
陽必飛表示,“目前數(shù)據(jù)中心存在依賴人工、被動響應、運營落差等實際問題。數(shù)據(jù)中心中每千柜需要15~30人實現(xiàn)7*24小時值守,每天6~12次現(xiàn)場抄表巡檢,這些都需要依賴人工來完成。而被動響應的機制使得效率無法得到有效提升,另外人工操作的風險很難控制,數(shù)據(jù)中心的高可靠性難以得到保證。同時運營落差,非最優(yōu)狀態(tài),實際PUE與設計PUE存在巨大GAP,使得資源的價值未得到最大化挖掘。”
謝云昭對此表示,“從萬國數(shù)據(jù)的角度,美國服務器租用,安全可靠、足夠的持續(xù)性和連續(xù)的投入改造,以及人力效率的提升是我們當前最重要的關注重點。比如將巡檢、日常的服務,方方面面的人員的巡檢從4-6小時中解放出來,讓傳統(tǒng)的巡檢工作慢慢退出歷史舞臺。這就提出了一種預防性維護的理念,通過季度、半年度、年度等維護,包括電氣連接點熱掃描 ,電池放電測試、應急組織和維修、計劃性的維護等等這些手段來提升數(shù)據(jù)中心的運維效率。”
為什么數(shù)據(jù)中心營維需要自動駕駛?
陽必飛認為,數(shù)據(jù)中心自動化發(fā)展與當前汽車自動駕駛的發(fā)展存在很多共通性特點。首先汽車自動駕駛可以提升提高可靠性,降低人為導致的安全事故,從而拯救數(shù)百萬人生命。另外高效的操作方式可以提升交通系統(tǒng)效率,降低擁堵。更高的能源效率還能減少碳排放;最重要的是解放了人,“0”技能要求讓老人、殘疾人、小孩都可以方便出行,解放了人們的眼睛、手腳、大腦和時間。
而數(shù)據(jù)中心自動化的發(fā)展,也是為了提高可靠性,以便應對數(shù)據(jù)中心規(guī)模和系統(tǒng)的復雜性上升、數(shù)據(jù)中心宕機產生的社會影響更大,以及云計算要求靈活可靠的資源調配能力等需求。而能源消耗大(耗電),碳排放高、占地面積、電力容量高、消耗社會資源等問題也需要更加高效的管理方式來解決,最終才能做到解放人的階段。
如何定義數(shù)據(jù)中心營維自動駕駛
陽必飛認為,要在自動駕駛汽車到自動駕駛數(shù)據(jù)中心之間建立聯(lián)系,大致可以分為以下幾個階段,完全人工、部分解放手腳、基本解放手腳、完全無人、基本解放大腦、完全解放手腳、部分解放大腦。
同時陽必飛也介紹了AI運維自動駕駛演進的幾個階段,從第一階段到第五階段可以分別通過電子化輔助,運維過程APP化,;減少人工抄表;;基于AI圖像、聲 音、異味等的AI感知無人巡檢;利用AI 分析實現(xiàn)智能故障診斷、快速定位、應急指導;AI預測實現(xiàn)故障預測、健康狀態(tài)預測、提前維護;最后實現(xiàn)AI自愈,全自動化故障“自修復”的自治運行等等。
在AI節(jié)能自動駕駛演進方面,自動化能夠實現(xiàn)能效可視、PUE監(jiān)測、AI自動尋優(yōu)、自動調節(jié),同時AI自學習還可以主動感知變化,自動調整尋優(yōu)規(guī)則等等。