12月14日,美國科技巨頭谷歌(Google)的許多服務(wù)在全球范圍突然一度宕機,旗下用戶大受影響。據(jù)悉,云主機租用,谷歌公司的自動系統(tǒng)直到服務(wù)中斷了30分鐘仍在匯報任何服務(wù)都沒有出現(xiàn)問題,包括消費者服務(wù)和面向開發(fā)者的云服務(wù)。
12月14日,美國科技巨頭谷歌(Google)的許多服務(wù)在全球范圍突然一度宕機,旗下用戶大受影響。
綜合多家媒體報導(dǎo),監(jiān)察故障的網(wǎng)站“Downdetector”顯示了超過9000個報告YouTube出現(xiàn)問題的用戶報告。當用戶嘗試登錄YouTube時,會出現(xiàn)一只猴子,并看到“出了點問題”的字句
除了YouTube,谷歌旗下Gmail郵箱,Google日歷、Google Drive、Google Search等服務(wù)也都受到影響,但大部分搜索引擎業(yè)務(wù)仍然完好,影響波及美國、歐洲、印度、加拿大、南非、中南美洲國家、澳大利亞和其他一些國家的用戶。
據(jù)報道,Google服務(wù)的大面積癱瘓大約從格林尼治標準時間(GMT)12月14日上午11時50分開始(北京時間19時50分),影響了公司旗下絕大多數(shù)的服務(wù)。而谷歌公司的自動系統(tǒng)直到服務(wù)中斷了30分鐘仍在匯報任何服務(wù)都沒有出現(xiàn)問題,包括消費者服務(wù)和面向開發(fā)者的云服務(wù)。12時25分,谷歌才終于發(fā)現(xiàn)了問題。
隨后,Google Cloud在推特上回應(yīng):宕機是由于硬盤滿了。
谷歌宕機,由來已久
據(jù)谷歌官方聲明,本次事故原因是由于服務(wù)器上的硬盤空間分配出了問題,導(dǎo)致認證系統(tǒng)出了故障。其實,早前就有消息傳出,谷歌云端運算服務(wù)容量存在問題。前段時間,谷歌宣布明年停止免費照片上傳容量, 并鼓勵訂閱Google One也能說明這一點。
其實,這已經(jīng)是谷歌今年第3次宕機事件了。9月25日,谷歌就曾上演過一次全球宕機,當時谷歌系統(tǒng)癱瘓多半集中在美國東岸,Gmail、YouTube、谷歌云端在系統(tǒng)宕機時,不斷有用戶持續(xù)嘗試進入,但都無法順利使用。
再往前,云主機租用,美東時間6月2號,基于谷歌云架構(gòu)服務(wù)的諸多谷歌服務(wù)也在全球范圍內(nèi)遭遇大規(guī)模中斷,宕機近4小時。據(jù)悉,不僅是Snapchat、Vimeo、Shopify、Pokemon GO等外部服務(wù),包括如YouTube、Gmail、Google Search等谷歌自家服務(wù)的運行也受到了影響。
美國東海岸用戶率先報告了這個問題,同時,宕機監(jiān)控器DownDetector的報告表明,北美、英國、歐洲、南美等全球多地也受此影響。對于這個問題,谷歌公司表示是因為網(wǎng)絡(luò)系統(tǒng)出現(xiàn)了問題,以后一定加強管理。
宕機的代價有多大?或許無人知曉確切的答案,但是可以粗略的估算一下。2013年谷歌曾發(fā)生過一次5分鐘的宕機,谷歌當年第二季度營收達到141億美元,相當于每分鐘營收10.8萬美元,換句話說,谷歌所有服務(wù)宕機5分鐘,其直接損失就是54.5萬美元,還不算由此帶來的企業(yè)商譽影響和對客戶業(yè)務(wù)的間接影響。
由此算來,谷歌單單今年的幾次宕機,所帶來的損失就已經(jīng)難以估量。而這其中,幾乎所有問題都圍繞其云架構(gòu)服務(wù)展開,而云架構(gòu)講究多地多活,防止單點故障。一個服務(wù)器出故障應(yīng)該可以在幾分鐘內(nèi)檢測到,然后引流到其它服務(wù)器,同時啟動休眠的服務(wù)器。
可見,谷歌云的市場占有率始終干不過前面兩家大廠,也是有原因的。
主流廠商,競相爭“宕”
其實,不只是谷歌,微軟也曾在云和硬盤方面發(fā)生過事故。
今年9月初,Windows 10的更新就出現(xiàn)了翻車事故。據(jù)了解,微軟在更新中修復(fù)了Windows 10 2004的一些bug,但同時又引入了幾個新的問題,導(dǎo)致用戶頻繁遇到PC崩潰、循環(huán)重啟等情況。
而在之后的修復(fù)過程中,微軟除修復(fù)一些常規(guī)bug,還特意更新解決了NVME固態(tài)硬盤引起的系統(tǒng)崩潰。據(jù)了解,Windows和NVMe固態(tài)硬盤的兼容問題一直都很差。此前,Windows 7就不支持使用NVMe的固態(tài)硬盤,因此裝有NVME固態(tài)的電腦需要單獨集成相關(guān)驅(qū)動才可使用。而即使此次修復(fù),由于存儲設(shè)備兼容性問題,也不是每個人的電腦都能夠收到此次更新。
在云端,微軟云計算服務(wù)Azure的主要組件在2014年8月就發(fā)生全球大范圍宕機。微軟表示,Azure服務(wù)當時處于中斷狀態(tài),原因是位于全球多個數(shù)據(jù)中心的至少6個主要Azure組件無法提供服務(wù)。Azure允許企業(yè)獲取計算資源,通過互聯(lián)網(wǎng)運行程序。
更令人震驚的是,2018年9月4日,微軟在美國中南部地區(qū)的圣安東尼奧數(shù)據(jù)中心由于雷電天氣影響導(dǎo)致電壓激增,數(shù)據(jù)中心的冷卻系統(tǒng)發(fā)生故障。為保證數(shù)據(jù)和硬件完整性,數(shù)據(jù)中心的自動化措施強制關(guān)閉了系統(tǒng)電源以防止機器因過熱造成損壞。這一事故引發(fā)了 Azure 中斷,Office 365 以及 Azure Active Directory 服務(wù)都受到影響,并且恢復(fù)相關(guān)存儲服務(wù)經(jīng)歷了很長時間。
故障從9月4日上午9點(北京時間9月4日17:00)左右開始出現(xiàn)問題,一直持續(xù)到9月5日13點左右(北京時間9月5日21:00左右),整個故障中斷時間超過 24 小時。
除了谷歌和微軟,即使全球最領(lǐng)先的亞馬遜云也曾屢次三番出現(xiàn)故障。