事件管理如何發(fā)展以及人工智能 (AI) 如何幫助團(tuán)隊(duì)更聰明地工作,而不是更努力地工作。事故會(huì)給組織帶來一系列問題,從臨時(shí)停機(jī)到數(shù)據(jù)丟失。如果做得好,事件管理可以提供一種高效且有效的方法來修復(fù)各種事件,幾乎不會(huì)造成中斷,并使組織為下一次事件做好更充分的準(zhǔn)備。
事件管理植根于 IT服務(wù)臺(tái),長(zhǎng)期以來一直是IT 運(yùn)營(yíng) (ITOps)與最終用戶之間的主要接口。隨著技術(shù)的進(jìn)步并變得更加復(fù)雜,組織看待事件響應(yīng)的方式也隨之改變。它已經(jīng)遠(yuǎn)遠(yuǎn)超出了幫助用戶解決問題的范圍,成為保持應(yīng)用程序持續(xù)正常運(yùn)行和加速持續(xù)改進(jìn)工作的過程。
什么是事件管理?
事件管理是 IT 運(yùn)營(yíng)和 DevOps 團(tuán)隊(duì)用來響應(yīng)和解決可能影響服務(wù)質(zhì)量或服務(wù)運(yùn)營(yíng)的計(jì)劃外事件的過程。事件管理旨在識(shí)別和糾正問題,同時(shí)保持正常服務(wù)并最大限度地減少對(duì)業(yè)務(wù)的影響。
IT 事件管理
公司 IT 運(yùn)營(yíng)中的事件管理(通常稱為ITIL事件管理)解決了可能影響服務(wù)和業(yè)務(wù)運(yùn)營(yíng)的范圍廣泛的問題,從筆記本電腦崩潰或打印機(jī)錯(cuò)誤到 Wi-Fi 連接問題和網(wǎng)絡(luò)停機(jī)。
ITSM(IT服務(wù)管理)框架下的事件管理是ITSM服務(wù)模型的一個(gè)方面。IT 的事件管理不是專注于創(chuàng)建系統(tǒng)和技術(shù),而是更多地以用戶為中心,旨在保持系統(tǒng)在線和運(yùn)行——無論是應(yīng)用程序還是端點(diǎn)(例如,傳感器或臺(tái)式計(jì)算機(jī))。
事件與服務(wù)請(qǐng)求
在 ITSM 中,IT 部門扮演著各種角色,包括解決出現(xiàn)的問題。這些問題的嚴(yán)重性是事件與服務(wù)請(qǐng)求的區(qū)別。簡(jiǎn)單地說,服務(wù)請(qǐng)求就是用戶要求提供某些東西,例如建議或設(shè)備。服務(wù)可包括請(qǐng)求協(xié)助重置密碼或?yàn)榕_(tái)式計(jì)算機(jī)獲取額外內(nèi)存。另一方面,事件更為緊急,表明存在需要解決的潛在錯(cuò)誤。
事件與問題
事件是導(dǎo)致服務(wù)中斷的單個(gè)計(jì)劃外事件,而問題是服務(wù)中斷的根本原因,它可以是單個(gè)事件,也可以是一系列級(jí)聯(lián)事件。不同之處在于補(bǔ)救措施以及響應(yīng)者如何解決問題。事件響應(yīng)是被動(dòng)的。IT 部門收到警報(bào)并處理事件。但是,在解決問題時(shí),IT 團(tuán)隊(duì)會(huì)找出根本原因,然后進(jìn)行修復(fù)。問題管理采取積極主動(dòng)的方法,查看各種類型的事件和出現(xiàn)的模式,以了解如何預(yù)防未來的事件。
DevOps 事件管理
DevOps團(tuán)隊(duì)專注于尋找更有效的方法來構(gòu)建、測(cè)試和部署軟件,這在一定程度上需要快速解決事件。與 ITIL 事件管理一樣,DevOps 事件管理旨在在不中斷運(yùn)營(yíng)的情況下解決問題。例如,DevOps 團(tuán)隊(duì)可能會(huì)監(jiān)控較差的平均故障間隔時(shí)間 (MTBF) 指標(biāo),這可能表明存在需要調(diào)查的潛在問題。
由于 DevOps 植根于持續(xù)改進(jìn),因此非常注重事后分析和透明的無責(zé)備文化。目標(biāo)是提高整體系統(tǒng)性能,更快地解決未來的事件,并防止未來的事件發(fā)生。與當(dāng)今的 IT 團(tuán)隊(duì)一樣,DevOps 可以使用自動(dòng)配置、事件優(yōu)先級(jí)排序和支持人工智能 (AI) 的根本原因分析工具來確保正常運(yùn)行時(shí)間,首先解決最緊迫的事件,并更快地學(xué)習(xí)如何修復(fù)和預(yù)防未來的問題。
事件管理流程
組織通常會(huì)創(chuàng)建一個(gè)事件管理流程,記錄響應(yīng)團(tuán)隊(duì)?wèi)?yīng)采取的事件順序。每個(gè)人都應(yīng)該知道哪些工作人員負(fù)責(zé)處理事件,解決問題所需的時(shí)間,何時(shí)將事件升級(jí)到下一個(gè)級(jí)別以及如何記錄事件以及解決問題的方式。
定義流程后,事件管理工作流程通常如下所示:
- 識(shí)別事件:無論是最終用戶向服務(wù)臺(tái)提交票證還是自動(dòng)警報(bào)系統(tǒng)將問題通知團(tuán)隊(duì),響應(yīng)團(tuán)隊(duì)都需要一種方法來接收系統(tǒng)內(nèi)的問題報(bào)告。
- 記錄事件并對(duì)事件進(jìn)行分類:這包括將報(bào)告輸入事件記錄系統(tǒng)并分配優(yōu)先級(jí),包括應(yīng)由哪個(gè)級(jí)別的員工處理。例如,1 級(jí)事件通常由經(jīng)驗(yàn)不足的新員工處理,而 2 級(jí)和 3 級(jí)事件的解決難度越來越大,需要最有經(jīng)驗(yàn)的響應(yīng)人員。
- 控制問題:如果是安全事件,響應(yīng)團(tuán)隊(duì)必須迅速采取行動(dòng)控制問題,無論是 DDoS 攻擊還是數(shù)據(jù)泄露。在所有情況下,團(tuán)隊(duì)都必須確保事件不會(huì)傳播并進(jìn)一步影響系統(tǒng)。
- 診斷事件:這是進(jìn)行故障排除的地方。響應(yīng)團(tuán)隊(duì)可以使用知識(shí)庫(kù)或ChatOps工具來建議可能的原因并節(jié)省時(shí)間。
- 解決事件:一旦確定原因,團(tuán)隊(duì)就會(huì)著手解決事件,無論是配置額外的內(nèi)存還是解決網(wǎng)絡(luò)中斷。
- 關(guān)閉并審查事件:事后審查是在當(dāng)今數(shù)字環(huán)境中提高可靠性和可用性的一個(gè)重要方面。這些數(shù)據(jù)不僅增加了組織的機(jī)構(gòu)知識(shí),而且還可以用于機(jī)器學(xué)習(xí)和支持AI的工具,以幫助更快地識(shí)別事件,甚至在可能發(fā)生事件時(shí)創(chuàng)建通知。
為什么要使用事件管理?
所有組織都需要解決問題和解決事件。這就是他們保持業(yè)務(wù)運(yùn)轉(zhuǎn)的方式。但擁有有效的事件解決工具和團(tuán)隊(duì)也有明顯的好處,這些工具和團(tuán)隊(duì)可以在不對(duì)業(yè)務(wù)造成重大中斷的情況下快速做出反應(yīng)。這些好處包括:
- 更快地解決問題:事件管理工具、自動(dòng)化和AIOps幫助團(tuán)隊(duì)識(shí)別問題并快速解決問題。這反過來又通過讓團(tuán)隊(duì)專注于核心業(yè)務(wù)運(yùn)營(yíng)而不是持續(xù)不斷的救火來提高效率。
- 更好的用戶體驗(yàn):當(dāng)事件在第一時(shí)間得到正確修復(fù)并且修復(fù)速度更快時(shí),它可以提高最終用戶的服務(wù)質(zhì)量。這始于一個(gè)清晰且易于使用的服務(wù)中斷報(bào)告系統(tǒng),并在處理事件時(shí)繼續(xù)進(jìn)行良好的溝通。
- 更高的運(yùn)營(yíng)效率:事件響應(yīng)創(chuàng)建了一個(gè)系統(tǒng),在這個(gè)系統(tǒng)中,問題有明確的解決途徑,并有助于隨著時(shí)間的推移建立制度知識(shí)。這些知識(shí)——要么由員工掌握,要么集成到由人工智能驅(qū)動(dòng)的自動(dòng)化系統(tǒng)中——有助于記錄重要的績(jī)效指標(biāo)(例如,平均解決時(shí)間 (MTTR)),有助于確保組織保持高水平的服務(wù)。
- 更深入的洞察力:借助有效的事件管理系統(tǒng),團(tuán)隊(duì)可以更快地解決重大事件并提取洞察力以進(jìn)行根本原因分析。當(dāng)團(tuán)隊(duì)成員記錄過去的事件是如何解決的時(shí),他們就開始創(chuàng)建一個(gè)劇本來解決未來類似的問題。
- 滿足 SLA:服務(wù)級(jí)別協(xié)議 (SLA) 定義公司需要向客戶提供的服務(wù)級(jí)別。因此,事件響應(yīng)和管理在滿足 SLA 中定義的指標(biāo)和關(guān)鍵績(jī)效指標(biāo) (KPI) 方面發(fā)揮著關(guān)鍵作用。
事件管理工具和自動(dòng)化
IT 運(yùn)營(yíng)日益復(fù)雜,部分原因是組織在日常業(yè)務(wù)運(yùn)營(yíng)中依賴的許多應(yīng)用程序,這使得事件響應(yīng)工具和自動(dòng)化比以往任何時(shí)候都更加重要。
以下是一些最常見的事件管理工具:
- 監(jiān)控工具:幫助識(shí)別中斷、觸發(fā)警報(bào)和診斷事件。監(jiān)控工具還可以通過釋放 DevOps 團(tuán)隊(duì)來更好地管理軟件生命周期來降低成本。
- 服務(wù)臺(tái):用戶提交工單、與服務(wù)臺(tái)團(tuán)隊(duì)聊天、監(jiān)控工單進(jìn)度和執(zhí)行一些自助服務(wù)任務(wù)的地方。通常,服務(wù)臺(tái)通過一個(gè)管理系統(tǒng)運(yùn)行,該系統(tǒng)支持關(guān)鍵事件管理任務(wù),例如優(yōu)先級(jí)排序和分類。
- AlOps?平臺(tái):使用日志和歷史數(shù)據(jù),AIOps 可以為更好的決策制定、更智能的資源分配和更快的事件響應(yīng)提供上下文。使用 AIOps 進(jìn)行事件管理的公司報(bào)告稱,IT 成本和 MTTR 降低了 50%。
- VDocumentation:自動(dòng)記錄環(huán)境變化的腳本,使記錄事件以進(jìn)行事后分析變得容易。例如,團(tuán)隊(duì)可以將 PowerCLI 腳本設(shè)置為按月運(yùn)行以記錄事件以進(jìn)行更深入的分析。