AIOps 的7個(gè)關(guān)鍵功能
隨著企業(yè)網(wǎng)絡(luò)的不斷發(fā)展,特別是面向數(shù)字化業(yè)務(wù)應(yīng)用的轉(zhuǎn)換,維持服務(wù)的正常運(yùn)行時(shí)間已經(jīng)成為一項(xiàng)令人頭痛的挑戰(zhàn)。例如,當(dāng)前服務(wù)往往需要與遺留系統(tǒng)共存,增加了管理工作的復(fù)雜性;隨著時(shí)間推移,基礎(chǔ)設(shè)施組件與服務(wù)層面的多樣性往往迫使我們部署多種管理工具;管理工具的增加,導(dǎo)致整體視圖的連續(xù)性變得更加難以維護(hù),而由此產(chǎn)生的信息孤島也導(dǎo)致可用數(shù)據(jù)的使用效率一路走低。
令問題更加復(fù)雜的點(diǎn)在于,這些組件生成的事件、日志與信息越來越多,最終導(dǎo)致IT運(yùn)營(yíng)團(tuán)隊(duì)只能超負(fù)荷工作;谏鲜霈F(xiàn)實(shí),我們?cè)絹碓诫y以找到基礎(chǔ)設(shè)施中的問題根源、或者以主動(dòng)方式解決問題。這不僅導(dǎo)致平均恢復(fù)時(shí)間(MTTR)變長(zhǎng),也將導(dǎo)致服務(wù)交付質(zhì)量下降,最終帶來糟糕的客戶體驗(yàn)并影響到客戶的整體滿意度。
幸運(yùn)的是,隨著挑戰(zhàn)的出現(xiàn),解決挑戰(zhàn)的方法也在不斷發(fā)展。人工智能技術(shù)給AIOps工具及平臺(tái)帶來了前所未有的發(fā)展前景。AIOps平臺(tái)提供的功能,已經(jīng)有望全面契合現(xiàn)代商業(yè)服務(wù)交付提出的數(shù)字化轉(zhuǎn)型復(fù)雜性與規(guī)模化需求。
根據(jù)Gartner的觀點(diǎn),“AIOps平臺(tái)將大數(shù)據(jù)與機(jī)器學(xué)習(xí)功能結(jié)合起來,以可擴(kuò)展的方式攝取并分析IT流程中快速產(chǎn)生且各類各異的數(shù)據(jù)量,由此支持各項(xiàng)核心IT運(yùn)營(yíng)功能。該平臺(tái)能夠同時(shí)支持多個(gè)數(shù)據(jù)源、多種數(shù)據(jù)收集方法以及分析與表示技術(shù)。”
最出色的AIOps工具需要通過數(shù)據(jù)匯總、提取洞見并最終根據(jù)智能產(chǎn)出提供價(jià)值。那么,理想的AIOps工具到底需要哪些基本功能?這七點(diǎn)不容忽視。
第一,數(shù)據(jù)收集。尋找能夠與其他方案完全搭配的系統(tǒng)。在本質(zhì)上,企業(yè)的AIOps解決方案必須能夠從多種來源處收集信息,包括服務(wù)及應(yīng)用程序等物理基礎(chǔ)設(shè)施組件與虛擬實(shí)體。在部署期間,企業(yè)的AIOps方案還必須有能力對(duì)接現(xiàn)有監(jiān)控工具以及新興技術(shù)。
第二,數(shù)據(jù)聚合。關(guān)注有助于促進(jìn)跨域協(xié)作的功能。首先,企業(yè)的AIOps解決方案需要能夠聚合來自IT基礎(chǔ)設(shè)施監(jiān)控(ITIM)、網(wǎng)絡(luò)性能監(jiān)控與診斷(NPMD)、數(shù)字體驗(yàn)監(jiān)控(DEM)以及應(yīng)用程序性能監(jiān)控(APM)端的數(shù)據(jù)。
第三,數(shù)據(jù)充實(shí)。聚合是實(shí)現(xiàn)數(shù)據(jù)使用的第一步,但要獲得真正的價(jià)值,我們的AIOps還需要擁有對(duì)所收集數(shù)據(jù)加以充實(shí)的能力。AIOps需要通過歷史數(shù)據(jù),例如日志與事件等提供追溯視圖,并配合應(yīng)用元數(shù)據(jù)與標(biāo)簽對(duì)索引中的搜索內(nèi)容加以充實(shí)。
通過將數(shù)據(jù)點(diǎn)與時(shí)間戳疊加起來,我們可以對(duì)性能及遙測(cè)信息等實(shí)時(shí)數(shù)據(jù)加以充實(shí),借此生成具備現(xiàn)實(shí)意義的時(shí)間序列信息。在后續(xù)使用這些信息時(shí),企業(yè)還可以添加合適的標(biāo)簽以建立鍵值對(duì),充分發(fā)揮數(shù)據(jù)潛能。
第四,分析洞見。洞見能力是AIOps工具的價(jià)值核心所在。很明顯,單憑最基本的相關(guān)性與統(tǒng)計(jì)分析功能,并不足以支撐我們確定復(fù)雜的根本原因。模式發(fā)現(xiàn)與異常檢測(cè)是一套出色AIOps系統(tǒng)中的關(guān)鍵組成部分,也能夠?yàn)楦鶕?jù)洞見促進(jìn)規(guī)范制定提供重要的實(shí)現(xiàn)基礎(chǔ)。除了基礎(chǔ)設(shè)施運(yùn)營(yíng)洞見之外,我們的AIOps系統(tǒng)還應(yīng)分析基礎(chǔ)設(shè)施問題對(duì)于業(yè)務(wù)的具體影響。由此實(shí)現(xiàn)的服務(wù)水平協(xié)議(SLA)管理,將幫助企業(yè)在與非技術(shù)相關(guān)方交互時(shí)獲得巨大的便利與價(jià)值。
第五,自動(dòng)化。自動(dòng)化能夠?yàn)镮T運(yùn)營(yíng)管理體系帶來極高的效率與效能。因此,企業(yè)的AIOps工具最好能夠快速生成并部署工作流,進(jìn)而自動(dòng)實(shí)現(xiàn)各項(xiàng)功能。具體來講,AIOps系統(tǒng)應(yīng)該提供自動(dòng)化庫維護(hù)功能、跨運(yùn)營(yíng)流快速實(shí)現(xiàn)工作流共享等選項(xiàng)。出色的自動(dòng)化功能不僅能夠提高運(yùn)營(yíng)敏捷性,同時(shí)也能夠顯著減少意外錯(cuò)誤、極大增強(qiáng)服務(wù)可用性。
第六,易用性。部分AIOps平臺(tái)提供基于云的管理層,能夠幫助IT團(tuán)隊(duì)以安全的分布式方式同時(shí)解決多個(gè)站點(diǎn)上多位客戶的問題,由此提高管理效率。通過監(jiān)控?cái)?shù)據(jù)管道,AIOps平臺(tái)能夠幫助其他工具輕松訪問收集到的信息、極大促進(jìn)各團(tuán)隊(duì)間的協(xié)作。
第七,靈活部署。在服務(wù)保證方面,不同的企業(yè)總有不同的實(shí)際情況與具體需求。因此在選擇AIOps平臺(tái)時(shí),無論采取自主托管、遠(yuǎn)程管理還是平臺(tái)即服務(wù),AIOps部署模型都必須有能力滿足企業(yè)獨(dú)特的業(yè)務(wù)與運(yùn)營(yíng)需求。
小結(jié)
根據(jù)Gartner的預(yù)測(cè),到2023年2月,將有30%的大型企業(yè)使用AIOps平臺(tái)。AIOps用例已經(jīng)證明,現(xiàn)有技術(shù)完全有能力實(shí)現(xiàn)真正主動(dòng)的IT運(yùn)營(yíng)管理功能。由其提供的出色方法,將幫助我們?cè)诿鎸?duì)不斷發(fā)展的基礎(chǔ)設(shè)施始終擁有出色且行之有效的復(fù)雜性管理方法。
企業(yè)在選擇AIOps工具時(shí),務(wù)必小心謹(jǐn)慎。只有滿足以上七項(xiàng)基本要求的出色AIOps工具,才能鞏固業(yè)務(wù)戰(zhàn)略成果、帶來穩(wěn)固可靠的IT運(yùn)營(yíng)能力。

