AIOps是如何工作的?
Intellyx公司首席分析師Jason English曾表示過,混合IT帶來的復(fù)雜性、超高速交付以及自動(dòng)化等挑戰(zhàn)已經(jīng)卷起一股難以擺脫的事件與警告風(fēng)暴。而目前興起的AIOps平臺雖然遠(yuǎn)稱不上完善,但已經(jīng)能夠?yàn)檎军c(diǎn)可靠性工程師(SRE)、運(yùn)營人員以及開發(fā)人員提供應(yīng)對這股風(fēng)暴的重要助力。
David Lithicum在GIgaOm發(fā)表的《Key Criteria for AIOps》報(bào)告中寫道,“這些AIOps工具全部圍繞數(shù)據(jù)展開。”Lithicum強(qiáng)調(diào),在系統(tǒng)監(jiān)控過程中,真正能夠暴露問題的永遠(yuǎn)是數(shù)據(jù)。對于專門負(fù)責(zé)預(yù)測故障或其他潛在問題/趨勢的解決方案,一切AI系統(tǒng)都必然高度依賴于模型訓(xùn)練階段的數(shù)據(jù)供應(yīng)。
那么,AIOps是如何運(yùn)作起效的?機(jī)器學(xué)習(xí)與人工(或應(yīng)用)智能又怎么使用數(shù)據(jù)幫助忙碌的SRE與DevOps團(tuán)隊(duì)優(yōu)化故障排查、解決實(shí)際問題?下面我們就一起說道說道。
先來看幾條基本定義。
AI是什么?人工智能(AI)屬于以機(jī)器模擬人類智能的技術(shù)的總稱,而且絕不像大家想象中那么可怕。AI技術(shù)的目標(biāo)非常簡單——讓軟件具有學(xué)習(xí)、反應(yīng)、發(fā)展、識別與自動(dòng)化能力。
機(jī)器學(xué)習(xí)是什么?機(jī)器學(xué)習(xí)(ML)算法是在數(shù)據(jù)集上訓(xùn)練而成的。這些算法能夠通過經(jīng)驗(yàn)與“學(xué)習(xí)”實(shí)現(xiàn)自我調(diào)整以改善輸出結(jié)果。機(jī)器學(xué)習(xí)算法往往能夠從數(shù)據(jù)當(dāng)中發(fā)現(xiàn)人類永遠(yuǎn)意識不到的未知數(shù)值、模式與連接。例如,在AIOps當(dāng)中,機(jī)器學(xué)習(xí)能夠顯著增強(qiáng)事件響應(yīng)能力。機(jī)器學(xué)習(xí)屬于人工智能定義下的一個(gè)子集。
AIOps如何起效?
要理解AIOps的工作原理,我們先來看一個(gè)大多數(shù)開發(fā)團(tuán)隊(duì)可能都非常熟悉的示例。
在當(dāng)今高度復(fù)雜的系統(tǒng)當(dāng)中,無數(shù)團(tuán)隊(duì)往往被快速淹沒在未知變量與警報(bào)噪聲當(dāng)中。開發(fā)者與工程師們一次又一次陷入信息泥潭,而且基本不可能逐一排查每一項(xiàng)警報(bào)、每一個(gè)事件。由此引發(fā)的警報(bào)疲勞,也導(dǎo)致真正緊急的警報(bào)遭到埋沒和忽略。
我們不可能調(diào)遣一位擁有20年經(jīng)驗(yàn)的優(yōu)秀工程師專職篩查警報(bào)內(nèi)容,這實(shí)在是對人才的嚴(yán)重浪費(fèi)。這時(shí)候,就輪到AIOps出場了。
AIOps是一種新型工具,能夠?qū)I與機(jī)器學(xué)習(xí)的強(qiáng)大能力引入遙測數(shù)據(jù),借此幫助團(tuán)隊(duì)快速評估數(shù)據(jù)內(nèi)容、采取應(yīng)對行動(dòng)并減少人力勞動(dòng)需求。
簡而言之,AIOps的主要負(fù)責(zé)在于數(shù)據(jù)智能與數(shù)據(jù)充實(shí)。它無法取代開發(fā)者角色;相反,它是要把寶貴的時(shí)間節(jié)約下來,提高信息的可觀察性,最終協(xié)助開發(fā)者打造出更完美的成品。
AIOps與其他監(jiān)控工具間的區(qū)別
AIOps能夠?yàn)镈evOps及站點(diǎn)可靠性工程團(tuán)隊(duì)提供豐富的洞見與自動(dòng)化支持,幫助他們快速發(fā)現(xiàn)并解決問題。
其中智能要素的存在,正是AIOps平臺與其他監(jiān)控工具間的核心區(qū)別。也正是這一關(guān)鍵因素,讓AIOps得以在現(xiàn)代工作場景下發(fā)揮出重要作用。
大多數(shù)企業(yè)已經(jīng)意識到自身生產(chǎn)系統(tǒng)復(fù)雜性的快速提升。此外,軟件功能的極大豐富也釋放出新的增長機(jī)會,開始在增強(qiáng)客戶體驗(yàn)、壓制競爭對手方面扮演更為重要的角色。為此,開發(fā)人員不得不承受起巨大的壓力,在創(chuàng)紀(jì)錄的極短時(shí)間內(nèi)無差錯(cuò)部署軟件以快速解決未來事件。
機(jī)器學(xué)習(xí)與AI能夠?yàn)榇鼒F(tuán)隊(duì)提供必要支持,幫助他們在快節(jié)奏的環(huán)境中發(fā)現(xiàn)問題、確定問題優(yōu)先級并快速實(shí)施故障排查與補(bǔ)救。AIOps平臺還增強(qiáng)了現(xiàn)有事件管理團(tuán)隊(duì)及工作流程的運(yùn)作方式,縮短了平均解決時(shí)間(MTTR)、降低人力勞動(dòng)量,最終給員工及最終用戶帶來更好的體驗(yàn)。
實(shí)踐中的AIOps
AIOps的價(jià)值當(dāng)然不會僅限于噪聲篩選。下面來看AIOps工具使用AI、機(jī)器學(xué)習(xí)與自動(dòng)化技術(shù)增強(qiáng)事件響應(yīng)流程的三種可行方式:
第一,主動(dòng)異常檢測:AIOps工具可自動(dòng)檢測環(huán)境中的異常,并觸發(fā)其他監(jiān)控解決方案及團(tuán)隊(duì)協(xié)作工具,例如Slack,通知以幫助開發(fā)者找出未知變量。
第二,事件關(guān)聯(lián)與充實(shí):AIOps工具能夠?qū)⑾嚓P(guān)警報(bào)、事件與對應(yīng)優(yōu)先級關(guān)聯(lián)起來,幫助我們快速關(guān)注最核心的問題;此外,AIOps還可利用歷史數(shù)據(jù)或棧內(nèi)其他工具的上下文信息對警報(bào)、事件進(jìn)行充實(shí),引導(dǎo)團(tuán)隊(duì)高效發(fā)現(xiàn)根本原因。目前最先進(jìn)的AIOps工具已經(jīng)能夠使用機(jī)器生成,基于時(shí)間的聚類、相似性算法及其他機(jī)器學(xué)習(xí)模型與人工生成的決策增強(qiáng)相關(guān)邏輯,幫助用戶自動(dòng)排除異常噪聲或低優(yōu)先級警報(bào)。
第三,智能警報(bào)與通報(bào):AIOps工具能夠自動(dòng)將事件數(shù)據(jù)路由至相應(yīng)的事件響應(yīng)個(gè)人或團(tuán)隊(duì)處,借此節(jié)約寶貴時(shí)間。特別是面對分布較為分散的自助服務(wù)團(tuán)隊(duì)而言,這種方式能夠極大減少成員接收到的噪聲警報(bào)數(shù)量、加快關(guān)鍵事件的數(shù)據(jù)發(fā)送效率,最終降低工作量。
AIOps工具運(yùn)行機(jī)器學(xué)習(xí)以評估事件管理與監(jiān)控工具中的數(shù)據(jù),并結(jié)合以往類似情況將問題移交給相應(yīng)職能個(gè)人/團(tuán)隊(duì)或?qū)iT的技術(shù)專家。
小結(jié)
積極擁抱AIOps,SRE與DevOps團(tuán)隊(duì)有望更深入地了解造成問題的根本原因、快速加以緩解、降低警報(bào)疲勞,保證團(tuán)隊(duì)能夠?qū)⒕性谧罹邇r(jià)值的工作——創(chuàng)造性與戰(zhàn)略性思考當(dāng)中。

