還有DCOM,面向運維、故障的生命周期管理,還有面向整體運營的服務,面向IDC能對外提供服務的能力,如何保障這些能力低成本達成,同時跟客戶交互的過程中如何實現盈利,這是我們構成面向IDC來說的對應管理工具。
1.監控管理平臺化,把數據都收上來,作為整個數據中心基礎設施運營數據的統一匯總平臺,大數據的接入平臺,實現基礎實時告警、發布的樞紐。
我們要知道有多少客戶,客戶的服務等級、計價方式、定單是什么,客戶跟我們產生的任務是不是每次都管理起來,持續高效的實現。另外跟客戶合同條款等級、計價,出賬單,應該付多少錢都要清楚。內部的賬單,我們在這個客戶身上付了多少成本,收了多少錢,哪個客戶給我提供更大的價值,包括租戶、服務市場,我能給客戶提供各種服務能力,客戶能不能在平臺上訂閱服務、訂閱增值、訂閱每次服務,訂閱服務以后是不是能形成相應的計價、閉環,并且每次服務是不是真的賺了錢,通過這樣的東西來運營,最終無論是IDC還是工具,最終實現商業價值的變現,數據中心持續的盈利和優化,這就是我們今天的匯報。
這是我們給某個客戶做的項目,我們已經把前面講到的故障生命周期里的核心模塊做了,除了前面聊到的資產資源能效管理,包括服務臺、巡檢、故障、變更、服務等級、維保等等,通過模塊與模塊之間的部署、溝通,實現了整個團隊的優化。
第三,上架運維指因。
第四個不要一想著上來就做大數據分析,首先要把數據積累做起來,數據的實時性、準確性、精度做起來,沒有好的數據想做相應的分析管理,驅動數據運維其實很難。
除了這些以外,今天我們在座的大部分是IDC的朋友,我們看一下IDC還關心什么,除了讓機房少出問題、不出問題,我還關心這個東西是不是能賺錢,跟我的運營有沒有關聯。作為運營來說,我們關心的是對客戶提供的服務,這些服務是不是低成本獲得、持續獲得,并且客戶是不是愿意持續付錢。
第二,容量。
第三關心容量,關心自己云資源池情況怎么樣,要加服務器、應用,是不是能合適的加進去。我托管給客戶,客戶能不能用容量工具提高租用的模塊,讓客戶更省心、高效。還關心能效,能源成本占運維成本的50%以上,目前數據中心的能效怎么樣?我是不是達標了?是不是達到了預期,是不是還有節能空間。
接下來我們就來拆解里面幾個關鍵模塊,看一看這里我們做了什么,怎么樣給客戶產生價值。
中國IDC圈訊 12月11日-13日,由中國IDC產業年度大典組委會主辦,中國IDC圈、CloudBest承辦的以“賦能企業數字化轉型”為主題的第十三屆中國IDC產業年度大典(簡稱“IDCC2018”)在北京國家會議中心隆重召開。
無論是IDC運營團隊還是IDC的租戶,可以看到租賃區域和整個IDC整體容量情況,比如說空間使用容量,知道目前每個機柜裝機情況,連續可用空間在哪里,知道電力使用情況,機柜電用的情況,包括網絡、承重等等,所有這些因素都可以通過系統來獲得,系統就可以獲得相應的維度,這是包括空間、功率、中糧、網口、PDU,所有資源都可以獲得。想獲得對應資源維度情況,系統馬上就能告訴你。所以我們需要的是跟數據中心、IDC匹配的工具,這幾年我們也發現了,講到DCIM有些業主贊不絕口,有些業主并不覺得發生了什么價值,更多是噱頭,為什么會產生這樣的情況?
1.無論是北京關于綠色節能的政策,還是全國各地鼓勵綠色產業能效放在了第一位。做好能效要分三步走,第一步要有能效數據,不知道在座各位IDC從業者是不是已經清楚的知道,機房的每一度電,每一千瓦消耗在哪里,每個環節損耗了多少電,香港服務器租用,日常的平均值是什么,每月、季度、每年的平均值是什么?是不是符合預期,不符合預期問題出在哪里?我相信大家都是很關心這個問題的。所以第一步我們先要構建能效示圖,能知道清晰的知道每一毛錢用在什么地方。
最近我們跟一個運營商溝通,他們想做大數據分析,但是機房里很多數據都沒有,這時候就很難做,所以必須把前期做好。
簡單回顧一下,我們幫助數據中心,除了把基礎設施管理起來,上它更節能、更綠色、更高效以外,讓機房少出問題、不出問題,這是DCOM的目的,走向整體的盈利,把我們的工具,把IDC從成本中心逐漸走向利潤中心的想法,跟我們這幾年在落地的,現在我們也在做這方面的項目,有些客戶叫三合一系統,這是指IT、基礎設施、業務,把三塊整合起來變成一個系統,這是我們現在在努力的一個方向。
第三個是分期建設,因為不同的時候面對的問題、困難、痛點是不一樣的,不要一次把廠家所有的模塊都布上去,我認為這是沒有意義的,可能會造成資源浪費,另外沒想清楚的模塊裝上去不好用,第三你裝上去沒用起來,后面想用的時候發現跟需求匹配度很低。
每次要做相應變動的時候,就告訴系統,現在我想干什么事,能不能給我提供相應的方案,告訴我這個事應該怎么辦,能實現容量最大化的算法。可以通過AI算法做智能匹配,無論是電力上架、機柜上架,還是兩分配,系統可以做這個事情。通過一整套流程,實現容量最優化。
一個機房里又有電又有空間,空調沒滿負荷,但是有些設備裝不上去,這個矛盾很沖突。我的設備要放在機房里,運維人員就不讓放,業務人員看到機房還空著就很不滿意,如果放了,比如說放在沒有電的機柜上,就跳閘了,如果不放的話會影響賺錢,也不行。
我們做了一些落地項目,這是我們給中國電信做的一套系統,就把前面我們聊到的所有特性都在項目里落地了。電信客戶總規模超過10萬機架,現在做到二期項目,關心運維,里面有大量自己的團隊,怎么把運維人員日常工作和應急工作管理起來,資產有自己的,有客戶托管的,這些資產怎么有效利用,并且能夠持續工作。
這幾年DCIM的蓬勃發展,2012年在國內被大家廣泛認可,到現在我們走過了6個年頭。我們可以看到整個行業也經歷了明顯的三個階段,最早DCIM1.0,就是大的集中監控,把機房里的所有子系統數據整合上來,弄更漂亮的界面做展示,很多業主栽跟頭的時候選擇的是1.0的產品,因為是集成式的,換了個更漂亮的界面就完了。
451Group做了一個調研,大家真正關心的是實現什么樣的價值?左邊的圖可以發現,第6級功能是設施監控,我要能把數據中心所有設備信息采集上來,是個基礎功能,所以有些廠家發現上DCIM是監控的升級版。第5級需求談到了對制冷IT設備運維,把IT需求管理起來,跟制冷系統做匹配。另外關心資產和容量,在運維的過程中做容量匹配的時候,發現風險是不是得到了管控。左邊這張圖更容易理解,53%的需求是關于能效和環境的管理,就是傳統的動環監控。53%在能源和環境管理方面,9%的需求集中在DC的業務規劃。我們要管好DCIM,做合格的話,除了監控以外,我們要把數據中心資產、能效匹配,更好的匹配業務需求鶴歸華,更好的貼近運維和運營的需求。
6.分析與報告。
會上,共濟科技DCIM行銷總監林德昌為大家帶來了《中大型IDC的DCIM實踐》的主題演講。以下為演講實錄(未經本人核實):
謝謝劉總,謝謝IDC給我們這樣一個交流互動的機會。下面我跟大家匯報一下這些年我們自己在DCIM方面的應用,我們發現這幾年數據中心的建設非常火熱,這個火熱程度不用我講,從早年大家關注整體的建設,現在更多的關注運維和運營,其實關心的是數據中心建完以后什么賺錢,怎么不出問題,怎么少惹麻煩。以前我們總說運維人員就像坐在火山口上的人一樣,不出問題是正常的,出了問題怎么辦?這是大家很關心的,今天我們就來分享一下這個話題。
最早大家關心的是人工運維,就是堆人頭,能看到的能解決。后來大家關注機房的動態監控,這幾年大家關心DCIM管理基礎架構。我們認為DCIM應該是實現監控分析、基礎設施的運營狀況和趨勢的前提下,管理好機房的資源、資產、能效,最終的目的是為了保證可用性的前提,減少浪費,提高效率。
做了這個東西帶來的區別是什么?以前傳統的方式,通過人工方式查找資源分布,知道每個機柜的負載,通過人腦匹配算法來找到匹配空間,手動推著上架。我們問了銀行的機房經理,我有100臺設備要放到機房,如果把資源利用率,人工算法算到最好的情況,這個方案要多久?他說大概需要一個月的時間。現在通過系統解放人員,解放流程,提高資源利用率,意味著我們通過工具能節省成本,擴大收益,能讓系統從成本中心逐步走向運維中心。
最近網絡流行都已經很多年了,我們數據中心還是很傳統落后的,這里面有大量的矛盾和沖突。比如最典型的IT基礎設施,和機房基礎設施之間的供需脫節,必然會導致大量的成本浪費、沖突和風險產生。
今天我們也帶來了系統在外面,大家感興趣的話可以關注我們,謝謝大家。
2.數據本身是很能講故事的,但是這個故事能不能講得通俗易懂,能不能讓每個人了解數據背后隱藏的意義?需要通過一道合理高效有序的可視化工具,把數據故事更好的表達出來。
第二個在架構的選擇上,我們認為選擇的必須是有生命力的產品,而不是簡單的集成方案,所以需要謹慎選擇1.0產品,盡可能選擇2.0、3.0產品,當然這跟我們的成熟度、數據中心的規模相關。
13日上午,IDCC2018分論壇,數據中心技術創新論壇正式召開!本次論壇邀請了行業內知名大咖和技術專家為大家帶來當今數據中心技術創新內容的分享。
我們講一下DCOM是什么?故障生命周期模型這個就繞不開。這里有事前預防、日常維護工作、巡檢工作、硬件預案,接下來楊老師也會分享應急管理。另外事發高效起來,通過服務臺能實時跟蹤目前所有的故障,進行故障分派。跟蹤好每個故障執行,通過故障等級,哪個故障可以通過什么樣的服務等級響應,不同的客戶需要通過這樣的時間響應優先級管理,需要把外包團隊管理起來,要完成事后的等級優化。
3.0從超大規模數據中心、人工智能、云計算技術趨勢的快速普及,我們發現3.0的特點:
我們走訪IDC的一個經理,說他們的資產分為財務資產、業務資產,需要對整個資產的全生命周期管理,但是目前的資產是靠人工來管的,人工管理的資產對他來說帶來了巨大的工作量。
2.人工智能加大數據,讓系統更加智能、更加方便。無論是互聯網公司還是IDC還是運營商,大家都在關注如何做智能運維。
1.云化,面向云擴容有強大的處理能力。
70%的機房看起來很空,但實際上已經滿了,不做新的調整是裝不了設備的。回過頭來源看國內的機房,比如說能源類的7千平,1400個柜,我們上機架的時候整體資源平均利用率只有60%左右,但是這個機房已經用不了了。這是幾億的投資,利用率只有60%,意味著有40%的資源浪費,對機房的所有者來說是巨大的投資損失。
2.0是平臺化的產品,能具備一定的擴展能力,現在需要對應的功能模塊,可以快速擴展,可以根據用戶的業務需求匹配相應的管理模塊。
我們要解決容量問題、資產問題,認為需要兩步走。第一步通過智能傳感,讓我實時掌握目前資源的使用情況,這是在電信安裝的場景,在機柜里會匹配安裝這樣的智能傳感,能實時了解到機柜里的使用情況,目前機柜里微環境的使用情況。第二步就是匹配智能算法,我們通過智能傳感可以獲取到整個數據中心NSPC的容量,N是網絡,S是空間、P是能量、C是電力。我把基礎設施的能力或者容量監測起來,就可以知道現在目前用了多少能力。我們對容量進行建模,告訴系統整個數據中心里面每層樓,每個模塊,每個機柜,配電的每個環節最大的能力值是什么,我知道我的能力上限是哪里,知道目前的負載是怎么樣的。
2.系統,有了這些數據給到系統,能自動統計處5日平均值、當日平均值、7天、每個月、每個季度的平均值,推算出未來的趨勢。
最后聊聊我們的想法,有些業主說上了DCIM發現很好用,有些認為不好用。我們要給到各位介紹模式的選擇上,不要把DCIM當成標準產品,不要想著廠家把標準產品部署在這兒就能做好。DCIM是產品加服務的模式,也就是說它需要甲方的深度參與,因為誰的腳痛誰知道,道理是一樣的。只有你最清楚團隊的情況、能力、瓶頸、痛點,通過你的痛點能夠告訴廠家,廠家才能提供有針對性的解決方案,幫助我們解決對應的問題,這是第一個。
新進的其實越來越難弄,因為強者恒強,做得好的企業做得好必然有道理,所以可持續發展就很重要,大家都在做口碑。我們匹配不同類型的數據中心,不同的管理等級,不同的需求,需要匹配不同的東西。我們講到IDC的運維不僅需要DCIM,還需要DCOM,這些是什么?我們做了頂層設計,來了解一下。
4.助力運維,不僅是發現問題,還要推動解決問題,并且推動問題的持續優化,另外實現資源的規劃。現在目前超大規模數據中心都不是一次把一萬個柜建起來,那一期經驗能不能指導二期,一期數據能不能幫助二期避免踩到相同的雷。
我們發現了這樣一些措施是有效還是無效的時候,就會產生下一步的關鍵動作,就是第三個模塊節能控制。我們會驅動人工或者驅動自動化工具,去完成相應的閉環,真正把能效控制在我們認為持續向目標靠近的值,而不是隨機跳動。
5.做資源規劃。
通過做相應的管理工具,之前在另外一個大會,有個專家講。我們做智能化的運維、無人運維,其實就是革各位專家的命,自我革新。習大大講話也提到了,我們只有用于自我革命,自我進化、自我完善、自我革新、自我提高,我們才能更有生命力。所以在座的各位搞技術的其實蠻苦的,但是我們可以學到很多新的知識和挑戰,很有樂趣。
對用戶來說,他當然希望我花最少的錢獲得最好的服務,比如說托管,要關心設備有沒有問題,還要關心其他的條件能不能滿足需要。對運維團隊來說,今天早上王總也談到,我能花錢解決的問題就不是問題,這句話放在運維團隊來說不合適。因為運維團隊希望花少錢辦大事,這里就必然有一個問題,大量人工的操作,以堆人頭的方式實現運維,就會有大量數據的不同步,沒法發現問題,包括關鍵流程的缺失,帶來了很大的隱患。
第一,能效。
我們對市場做了了解以后,發現現階段的DCIM有這樣6個普遍的技術特點:
3.調優,我們里了預期目標,到底是什么原因?偏離的時候是因為我們對數據中心做了什么樣的調整?比如說回水溫度調整,空調負載均衡,做了一些調整之后,是不是能對數據中心產生相應的,還沒達到預期的調整,通過能效分析就能呈現。
【中國IDC圈原創 未經授權禁止轉載】
3.容量掌控,以前在數據中心里大家更多關心的是故障和建設,對容量來說是長期被忽視的要素。數據中心里有大量容量,但是容量用不起來,為什么?怎么解決?