網絡變更管理是一個旨在降低變更失敗的可能性和風險的過程。這個過程需要幾個步驟來確保成功的改變,但是每個步驟是如何工作的呢?
飛機飛行員使用明確定義的流程來確保安全飛行。同樣,網絡團隊可以使用定義好的流程來降低網絡變更失敗的風險意外停機。盡管如此,組織有時會發現變化沒有按計劃進行,導致網絡中斷。一些中斷是由于過程失敗,而另一些是由于復雜配置的不明顯的結果。
本文討論了網絡變更管理的基本操作原則,如下所示:
- 范圍確定和風險分析。
- 同行評議。
- 部署前測試和驗證。
- 實施和測試。
- 文檔更新。
在進入變更管理流程之前,網絡團隊必須確定變更的詳細信息,例如新配置、設備連接信息和文檔。
1.范圍和風險分析
網絡變更管理流程的第一步是評估提議變更的范圍。確定哪些服務可能會受到影響,以及使用這些服務的利益相關者。考慮變更的潛在范圍和影響,包括任何可能的負面結果。
團隊應該根據以下兩個因素來衡量范圍:
- 受變更影響的端點數量。
- 變更可能影響的服務的重要性。
一旦團隊確定了范圍,他們應該執行風險評估的變化。是不是過去做過無數次的事情,很好理解?它是完全自動化的,還是有可能人為錯誤會以一種意想不到的方式改變變更?所涉及的技術是否被很好地理解,或者是否有可能發生意想不到的事情?
變化的范圍與風險成正比。對運行關鍵業務流程的基礎架構的更改比對小型分支機構站點的更改給業務帶來的風險更大。
網絡團隊可以使用風險因素計算器,為關鍵參數賦值。要創建風險計算器,請計算以下示例參數的平均值,或在網上搜索計算器:
- 客戶會看到效果嗎?(否= 1,是= 10)
- 有多少客戶會受到影響?(范圍從1到10)
- 范圍內的服務有多重要?(范圍從1到10)
- 這種改變在過去成功實施過嗎?(是= 1,否= 10)
- 變更是自動化的嗎?(范圍從1到10,取決于自動化程度)
- 在實施之前,是否可以徹底測試變更?(是= 1,否= 10)
- 供應商文件是否清晰明確?(范圍從1到10)
- 同行評審是否徹底,是否暴露了任何潛在的問題?(范圍從1到10)
風險越大,團隊在剩余的變更管理過程中就需要越小心。確保團隊有清晰的變更控制文檔,詳細說明任何變更的理由、回滾程序和范圍。
2.同行審查
下一步是進行同行評審。雖然團隊可以在風險分析之前執行這一步驟,但是最好使用風險級別來推動同行評審的徹底性。所有的同行評審應該是相當徹底的,但是團隊很可能對常規變更進行粗略的評審,例如訪問控制列表變更或虛擬局域網修改。自動化測試并且常規變更的部署可以幫助減輕粗略的同行評審的風險。
通常,熟悉網絡的內部員工會進行同行評審。然而,如果一個改變是不尋常的,讓設備供應商的專家來執行審查是有意義的。審查應該反饋到風險分析階段,并更新技術風險度量,例如指出測試和文檔是否足夠。
同行評審員在評審過程中應檢查以下因素,其中包括:
- 配置腳本。
- 硬件和軟件兼容性。
- 回滾程序。
- 改變基本原理。
- 業務需要。
- 網絡安全和合規性。
- 模板和文檔。
3.部署前測試和驗證
理想情況下,所有變更都要經過部署前測試和驗證階段。考慮自動化低風險的、重復的任務和變更,以消除跳過團隊認為低風險的變更測試的誘惑。范圍和風險越大,正確測試和驗證提議的變更就越重要。
虛擬路由器和交換機操作系統實例的流行使得自動創建測試網絡拓撲變得更加容易,而無需昂貴的硬件投資。使用網絡實驗室和沙箱在虛擬網絡拓撲中構建自動化工作流,當測試成功完成時,團隊可以拆除這些工作流。
部署前測試包括團隊應該遵循的幾個步驟,以評估提議的更改:
- 檢驗測試網絡在變更前是否按預期工作。
- 在測試基礎設施中實現變更,以確認變更會導致期望的最終狀態。團隊應該使用自動化過程來避免人為錯誤,并減少驗證變更的時間。如果測試環境中的驗證失敗,請確定原因。失敗是因為更改不正確,還是因為測試網絡沒有準確代表真實網絡?
- 測試回退更改過程,以便在出現問題時可以很容易地恢復到以前的狀態。回滾應該將網絡返回到開始狀態,團隊可以通過重復步驟1來驗證這一點。
4.實施和測試
部署和部署后測試和驗證應遵循與部署前測試的步驟1和2相同的流程。如果團隊在部署前測試和驗證方面做得很好,就不會發生意外。如果變更后測試檢測到意外問題,團隊應該取消變更并驗證服務恢復。
一些網絡協議在更改為大型網絡后需要更多時間來收斂。因此,變更后驗證應該包含延遲或收斂測試,這是小型測試環境中的部署前測試所不需要的。
許多組織將網絡配置變更自動化,目標是遷移到基于基礎設施即代碼的DevOps文化。目標是通過一項連續累計/針對低風險變更的連續交付測試和部署流程。
5.文檔和網絡管理更新
理想情況下,團隊在變更創建過程中創建和更新文檔,使他們能夠審查文檔和網絡管理變更以及變更的細節。一旦團隊實施并驗證了更改,他們就可以將文檔更改合并到網絡文檔系統中。
不要忘記根據需要更新網絡管理系統。大多數網絡管理系統都有API來支持自動化流程進行更改。
如果更改驗證步驟是自動化的,則可以將其合并到定期網絡驗證檢查中。這些定期檢查可以高度檢測故障冗余和彈性網絡。隨著時間的推移,團隊會構建一個涵蓋網絡許多部分的網絡驗證檢查庫。
良好的網絡變更管理原則為減少因變更失敗而導致的計劃外網絡中斷提供了指導。團隊應該創建一個適合他們組織的過程,并努力使該過程高效。