沒人愿意想到自己的技術(shù)會(huì)失效。但當(dāng)您的業(yè)務(wù)處于危險(xiǎn)之中時(shí),這正是您應(yīng)該考慮的問題。在基礎(chǔ)設(shè)施領(lǐng)域,有一個(gè)普遍的真理。技術(shù)會(huì)失效。如果還沒有失效,那只是時(shí)間問題。
因此,無論您為托管支付多少費(fèi)用,都建議建立一個(gè)內(nèi)置安全網(wǎng),以防出現(xiàn)問題。
在本博客中,我們討論了什么是服務(wù)器冗余,并分享了四種在基礎(chǔ)設(shè)施生態(tài)系統(tǒng)中改善冗余的方法。從服務(wù)器內(nèi)冗余開始,一直到全面的災(zāi)難恢復(fù),我們將提供一些關(guān)于如何降低服務(wù)器故障風(fēng)險(xiǎn)并實(shí)現(xiàn)基礎(chǔ)設(shè)施彈性的技巧。
什么是服務(wù)器冗余?
服務(wù)器冗余意味著建立冗余系統(tǒng)以防止數(shù)據(jù)丟失和/或服務(wù)器故障。例如,通過設(shè)置一個(gè)或多個(gè)備份服務(wù)器來支持主服務(wù)器。如果主服務(wù)器發(fā)生故障,冗余服務(wù)器將接管,以便您的網(wǎng)站或應(yīng)用程序保持在線。
如何通過 4 個(gè)步驟改善服務(wù)器冗余
1.服務(wù)器內(nèi)冗余
人們普遍誤以為選擇最先進(jìn)的數(shù)據(jù)中心就足以保證基礎(chǔ)設(shè)施的穩(wěn)固。實(shí)際上,服務(wù)器冗余更多地取決于單個(gè)服務(wù)器設(shè)置的設(shè)計(jì)。
安裝RAID(獨(dú)立磁盤冗余陣列)是平臺(tái)可以采取的最簡(jiǎn)單的措施之一,可以提高其基礎(chǔ)設(shè)施堆棧的彈性。RAID 是一種數(shù)據(jù)存儲(chǔ)系統(tǒng),可以在軟件或硬件級(jí)別實(shí)施,以提供冗余和性能優(yōu)勢(shì)。
有許多不同的 RAID 級(jí)別可供選擇(RAID 0、1、5、6 和 10 是最常用的)。所有 RAID 級(jí)別都是通過將數(shù)據(jù)存儲(chǔ)在多個(gè)驅(qū)動(dòng)器上來工作的,但方法各不相同。由于這些差異,特定的 RAID 級(jí)別將更適合某些工作,具體取決于應(yīng)用程序的個(gè)別要求。
有關(guān)不同 RAID 級(jí)別的更多信息,您可以查閱下表。
使用在線RAID 計(jì)算器可以幫助您進(jìn)行 RAID 規(guī)劃,讓您根據(jù)輸入的 RAID 參數(shù)(磁盤數(shù)量、單個(gè)磁盤大小、RAID 類型)計(jì)算存儲(chǔ)陣列的容量、速度增益和容錯(cuò)能力。
提高服務(wù)器內(nèi)冗余度的其他因素包括:
- 雙電源 (PSU)。顧名思義,這意味著您的服務(wù)器上有兩個(gè)電源。因此,如果一個(gè)電源發(fā)生故障,另一個(gè)可以接管。
- 投資于更強(qiáng)大的網(wǎng)絡(luò)冗余。在服務(wù)器上激活額外的網(wǎng)絡(luò)交換機(jī)可確保如果一個(gè)交換機(jī)發(fā)生故障,冗余交換機(jī)可接管并且網(wǎng)絡(luò)仍可正常運(yùn)行。
即使是高性能服務(wù)器也需要內(nèi)置冗余。結(jié)合所有這些措施將使單個(gè)服務(wù)器盡可能地冗余。但是,為了進(jìn)一步增加冗余,企業(yè)需要以備份的形式提供超出單個(gè)服務(wù)器的額外容量。
2.備份
為了實(shí)現(xiàn)更高級(jí)別的基礎(chǔ)設(shè)施冗余,單個(gè)服務(wù)器上的數(shù)據(jù)應(yīng)備份到單獨(dú)的備份服務(wù)器或存儲(chǔ)設(shè)備中。備份服務(wù)器可以位于同一個(gè)數(shù)據(jù)大廳、不同的數(shù)據(jù)大廳或物理上不同的位置(輔助站點(diǎn))。
分別地,每個(gè)選項(xiàng)都提供了更高級(jí)別的冗余。
備份服務(wù)器或存儲(chǔ)設(shè)備應(yīng)持續(xù)更新(每小時(shí)、每天、每周),并形成應(yīng)用程序數(shù)據(jù)的副本。如果主服務(wù)器出現(xiàn)故障,備份服務(wù)器或存儲(chǔ)設(shè)備上會(huì)有該數(shù)據(jù)及其版本歷史記錄的安全副本。
備份可防止服務(wù)器級(jí)別的物理故障、開發(fā)人員的錯(cuò)誤以及(在二級(jí)站點(diǎn)備份的情況下)數(shù)據(jù)大廳內(nèi)火災(zāi)等環(huán)境威脅。但是,即使備份到位,事故發(fā)生后應(yīng)用程序也可能需要數(shù)周時(shí)間才能恢復(fù)在線狀態(tài)。
3.多服務(wù)器彈性
一些平臺(tái)選擇使用多個(gè)專用服務(wù)器來處理其彈性。在這些情況下,在兩個(gè)或多個(gè)應(yīng)用程序服務(wù)器之間放置負(fù)載平衡器將有助于提高服務(wù)器冗余度。
負(fù)載平衡將流量分配到多個(gè)服務(wù)器,因此如果其中一個(gè)服務(wù)器出現(xiàn)故障,則另一個(gè)服務(wù)器可以保持網(wǎng)站或應(yīng)用程序的運(yùn)行。負(fù)載平衡器使應(yīng)用程序能夠擴(kuò)展到單個(gè)服務(wù)器的容量之外。
相比之下,如果您希望提高數(shù)據(jù)庫軟件的彈性,則需要配置額外的數(shù)據(jù)庫服務(wù)器作為高可用性 (HA) 主動(dòng)-被動(dòng)對(duì)。主動(dòng)-被動(dòng)可用性意味著數(shù)據(jù)庫有一個(gè)可以處理請(qǐng)求的主動(dòng)節(jié)點(diǎn)和一個(gè)可以在災(zāi)難中接管的熱備用節(jié)點(diǎn)。
4.災(zāi)難恢復(fù)規(guī)劃
無論您的基礎(chǔ)設(shè)施是由最便宜還是最昂貴的提供商托管,位于評(píng)級(jí)最差還是最高的數(shù)據(jù)中心,如果您真的想降低風(fēng)險(xiǎn),就應(yīng)該制定災(zāi)難恢復(fù)計(jì)劃。
災(zāi)難恢復(fù)計(jì)劃是組織為處理意外事件而制定的正式程序。基礎(chǔ)設(shè)施災(zāi)難恢復(fù)計(jì)劃將包括處理緊急情況的措施,例如物理建筑物損壞、網(wǎng)絡(luò)攻擊、服務(wù)器故障、硬件故障和其他硬件問題。
創(chuàng)建災(zāi)難恢復(fù)計(jì)劃時(shí),有兩個(gè)關(guān)鍵參數(shù)。它們是恢復(fù)時(shí)間目標(biāo) (RTO) 和恢復(fù)點(diǎn)目標(biāo) (RPO)。
- RTO:這是衡量應(yīng)用程序在對(duì)企業(yè)造成重大損害之前可以停機(jī)的“實(shí)際時(shí)間”的指標(biāo)。這是企業(yè)在沒有基礎(chǔ)設(shè)施的情況下可以生存多久的閾值。關(guān)鍵任務(wù)應(yīng)用程序的 RTO 非常短,而不太重要的應(yīng)用程序通常可以承受較長(zhǎng)的 RTO。
- 要計(jì)算您的 RTO,您需要確定您的企業(yè)可以承受多少停機(jī)時(shí)間、系統(tǒng)恢復(fù)的預(yù)算以及實(shí)現(xiàn)完整系統(tǒng)恢復(fù)所需的工具。
- RPO:這是企業(yè)在意外事件發(fā)生后可以承受的最大數(shù)據(jù)丟失量的時(shí)間度量。RPO 實(shí)際上是可接受的最大數(shù)據(jù)丟失量,以自最近一次可靠數(shù)據(jù)備份以來經(jīng)過的時(shí)間來衡量。
大型組織通常需要從故障點(diǎn)進(jìn)行備份。要計(jì)算您的 RPO,您需要確定關(guān)鍵數(shù)據(jù)的更新頻率、備份頻率以及備份的存儲(chǔ)容量。
沒有人愿意考慮最壞的情況,甚至更少有人愿意為可能發(fā)生或可能不會(huì)發(fā)生的服務(wù)器故障付費(fèi)。正因?yàn)槿绱耍S多組織忽視了災(zāi)難恢復(fù)規(guī)劃。但即使是最好的技術(shù)也容易出現(xiàn)故障,因此 RTO 和 RPO 都是確保意外事件后快速恢復(fù)的關(guān)鍵。
做好最壞的打算——你不會(huì)后悔的
提前規(guī)劃可防止性能不佳。這也適用于您的基礎(chǔ)設(shè)施。無論我們是否喜歡,硬件問題都會(huì)出現(xiàn),服務(wù)器故障會(huì)發(fā)生,環(huán)境危害也存在。
采取措施改善基礎(chǔ)設(shè)施冗余意味著當(dāng)最壞的情況發(fā)生時(shí),您將擁有足夠的資源來保持您的網(wǎng)站或應(yīng)用程序在線。