云應(yīng)用程序通常在可靠的正常運(yùn)行時(shí)間方面贏得了良好的聲譽(yù)。但是,通過(guò)持續(xù)測(cè)試可用性和響應(yīng)時(shí)間來(lái)監(jiān)控您的云托管系統(tǒng)和應(yīng)用程序仍然很重要。這四個(gè)監(jiān)控技巧可以幫助您依靠云。
云服務(wù)提供商通常會(huì)提供三個(gè) 9 或更好的正常運(yùn)行時(shí)間,但確實(shí)會(huì)發(fā)生中斷。即使主要參與者在 Web 架構(gòu)中內(nèi)置了所有冗余和其他保護(hù)措施,他們的系統(tǒng)仍然會(huì)因各種故障而癱瘓。這里有一些例子:
- 過(guò)期的 SSL 證書導(dǎo)致大多數(shù) Microsoft Azure 用戶的加密存儲(chǔ)流量在全球范圍內(nèi)中斷 12 小時(shí)(對(duì)于某些用戶,則為 24 小時(shí)中斷)。
- 一個(gè)內(nèi)部 DNS 錯(cuò)誤導(dǎo)致 Apple 每小時(shí)損失 200 萬(wàn)美元,而其應(yīng)用商店、iTunes 和其他服務(wù)出現(xiàn)故障。
- 數(shù)據(jù)中心虛擬網(wǎng)絡(luò)故障導(dǎo)致 Google Compute Engine 中斷了 2 小時(shí) 40 分鐘。
無(wú)聲的減速會(huì)削弱生產(chǎn)力和銷售
中斷不應(yīng)該是您對(duì)云服務(wù)的唯一關(guān)注。減速可能與用戶中斷的行為相同 - 更糟糕的是,在用戶抱怨之前,它們很容易被忽視。或者他們可能不會(huì)抱怨,并且經(jīng)常性的生產(chǎn)力損失或銷售來(lái)源將不會(huì)被發(fā)現(xiàn)。
例如,如果您的銷售人員使用基于云的 CRM 系統(tǒng)登錄需要 15 秒,那么您需要知道。本質(zhì)上,你付錢讓人們等待。如果您的購(gòu)物車在 8 秒內(nèi)沒(méi)有提供完全填充的響應(yīng),那么對(duì)于大多數(shù)潛在買家來(lái)說(shuō),該系統(tǒng)就像停機(jī)一樣好。
不要讓這些減速?zèng)]有被發(fā)現(xiàn)。監(jiān)控云應(yīng)用程序可能很棘手,但您的云應(yīng)用程序的持續(xù)性能和歷史記錄應(yīng)該在您的網(wǎng)絡(luò)管理儀表板上與其他關(guān)鍵系統(tǒng)具有相同級(jí)別的可見性。應(yīng)用程序性能管理工具APM允許開發(fā)團(tuán)隊(duì)主動(dòng)監(jiān)控和改進(jìn)應(yīng)用程序性能。APM 工具(例如Stackify Retrace)提供代碼級(jí)洞察以及集成日志記錄,以識(shí)別 QA 中的更多問(wèn)題并持續(xù)觀察生產(chǎn)環(huán)境中的應(yīng)用程序。
監(jiān)控云主機(jī)應(yīng)用
除了驗(yàn)證您的云應(yīng)用程序的當(dāng)前可用性之外,您的監(jiān)控工具還應(yīng)該自動(dòng)跟蹤這些元素:
- 事務(wù)步驟:如果需要按順序執(zhí)行多個(gè)步驟(初始身份驗(yàn)證、數(shù)據(jù)庫(kù)調(diào)用、中間件步驟等),請(qǐng)確認(rèn)這些步驟中的任何一個(gè)步驟是否處于非活動(dòng)狀態(tài)或緩慢。如果是這樣,您應(yīng)該能夠確定故障元素對(duì)整體可用性的影響。
- 延遲:如果網(wǎng)絡(luò)延遲嚴(yán)重影響基于 Web 的應(yīng)用程序,您需要跟蹤該延遲并盡可能跟進(jìn)以解決問(wèn)題。延遲尤其會(huì)導(dǎo)致移動(dòng)用戶的服務(wù)延遲,因此如果該平臺(tái)對(duì)您的業(yè)務(wù)至關(guān)重要,您需要能夠一眼看出延遲是否會(huì)造成或加劇服務(wù)問(wèn)題。
- 響應(yīng)時(shí)間警報(bào):設(shè)置頁(yè)面加載時(shí)間的警報(bào)級(jí)別,對(duì)于許多應(yīng)用程序,響應(yīng)速度低于 1.5 – 2 秒意味著服務(wù)已嚴(yán)重受損。
- 服務(wù)器/網(wǎng)絡(luò)計(jì)時(shí):如果您看到的有關(guān)云環(huán)境性能的數(shù)據(jù)不夠精細(xì),您可能不知道服務(wù)問(wèn)題是否與網(wǎng)絡(luò)問(wèn)題、服務(wù)器配置甚至頁(yè)面或腳本設(shè)計(jì)有關(guān)。
擁有讓云服務(wù)提供商承擔(dān)責(zé)任所需的數(shù)據(jù)
了解基于云的系統(tǒng)的實(shí)時(shí)狀態(tài)可以讓您有時(shí)間為即將發(fā)生的中斷的影響做好準(zhǔn)備。您可能能夠采取糾正措施,或者至少與受影響的用戶進(jìn)行溝通,以便他們了解問(wèn)題并采取相應(yīng)措施。
能夠一目了然地查看歷史信息并生成報(bào)告以記錄它,這一點(diǎn)也很重要。有了這些數(shù)據(jù),您就可以讓您的服務(wù)提供商承擔(dān)責(zé)任。如果他們沒(méi)有達(dá)到他們承諾的服務(wù)水平要求,您需要向他們展示正在發(fā)生的事情。
如果您已經(jīng)完成了將裸機(jī)服務(wù)遷移到云的艱苦工作,您可能已經(jīng)看到正常運(yùn)行時(shí)間增加了,這很好。但云在 IT 系統(tǒng)基礎(chǔ)設(shè)施中的作用顯著增加,可能會(huì)產(chǎn)生更多的復(fù)雜性和更多的服務(wù)問(wèn)題。通過(guò)徹底監(jiān)控云托管的應(yīng)用程序,立即為處理新出現(xiàn)的云服務(wù)問(wèn)題做好準(zhǔn)備。