AIOps + DevOps,1+1>2
DevOps的核心在于以人力擴展技術,而AIOps則強調(diào)以技術擴展技術。在當今世界,相當一部分重要的業(yè)務工作已經(jīng)完成數(shù)字化。IT團隊必須適應并緊跟變化的步伐,同時嚴格保證運營基礎設施的零停機時間。
但隨著IT在業(yè)務運營體系中重要性的步步攀升,構建及支持客戶體驗的IT團隊在生產(chǎn)力與敏捷性方面卻是一路下滑。這無疑會給企業(yè)造成嚴重后果。一旦企業(yè)的應用與服務出現(xiàn)故障,企業(yè)必然會失去客戶、遭遇收入縮水。而如果IT團隊將主要精力投入到解決緊急問題身上,敏捷性與創(chuàng)新能力則會受到影響。換言之,我們必須在成長、競爭與發(fā)展當中找到最完美的平衡點。
如今,企業(yè)獲得的客戶數(shù)據(jù)量極為龐大,已經(jīng)根本無法以手動方式通過舊有工具進行監(jiān)控與分析。而這也給以AI為主導的運營方式演變打開了大門。新時代下的關注焦點,正是AIOps。通過IT監(jiān)管的簡化與全面自動化,AIOps幫助IT運營團隊重新掌握IT環(huán)境主動權,同時快速發(fā)展并修復問題以防止業(yè)務中斷。
SRE與DevOps團隊面臨新的挑戰(zhàn)
近年來,DevOps掀起的變革風潮可謂勢頭正勁,但其核心仍然是嘗試以人力為前提實現(xiàn)技術擴展。DevOps運動呼吁將服務的所有權、支持權與問責歸屬交由編寫代碼的開發(fā)人員。這項技術鼓勵打破技術運營團隊的現(xiàn)有邊界,讓他們在幾乎沒有上下文乃至清晰升級路徑的前提下獨立運營,由此創(chuàng)造出多個規(guī)模較小的DevOps工程師團隊。
各個DevOps團隊通過各自的微服務實現(xiàn)協(xié)同合作,聯(lián)手實現(xiàn)企業(yè)所需要的客戶體驗與業(yè)務目標。根據(jù)運營模式的不同,DevOps團隊中往往還設有專門的站點可靠性工程(SRE)團隊或個人,主要負責監(jiān)控可觀察數(shù)據(jù)以發(fā)現(xiàn)潛在問題。在這種情況下,SRE管理者將把自己的洞見反饋至開發(fā)周期當中,由此調(diào)整并增強DevOps團隊服務的可靠性與可擴展性。
但是,由于事件是實時發(fā)生的,SRE與DevOps團隊仍然很難在其應用程序、基礎設施以及最終業(yè)務服務當中獲得洞見與認知。為了理解事件發(fā)生的位置及其給服務與客戶帶來的影響,我們必須從噪音背景中提取出重要事件、了解不同警報之間的關系,并獲取與相應團隊及人員交互所需要的上下文信息。
這無疑帶來了新的挑戰(zhàn):如何在產(chǎn)生實際業(yè)務影響之前,讓合適的人員介入以響應并解決事件。不同DevOps團隊都有自己的職責與工具,但大多數(shù)團隊并不會使用API進行通信。人員分散在多個地理位置,一旦發(fā)生需要多方介入的復雜事件,我們該如何跨越不同時區(qū)與上報流程、保證各方高效聯(lián)絡并聯(lián)手協(xié)同?
隨著越來越多的企業(yè)開始以客戶體驗為中心、數(shù)字化優(yōu)先的立場持續(xù)推動轉型,這些挑戰(zhàn)的現(xiàn)實嚴重性、監(jiān)控數(shù)據(jù)的增長以及對業(yè)務的負面影響也被更多人所熟知。作為一種重要且前景光明的技術運營解決方案,企業(yè)不約而同地將AIOps納入DevOps流程,借此塑造出可管理、高效且利潤空間更為豐厚的運營前景。
AIOps給DevOps團隊帶來了什么
AIOps提供獨特的解決方案,能夠在應對運營挑戰(zhàn)的同時,涵蓋企業(yè)服務保證策略與業(yè)務流程中的各個方面。
總結來講,我們需要將人力解放出來,專注于處理關鍵任務,讓他們提供更好的客戶體驗與更完善的服務。要實現(xiàn)這一目標,我們首先需要脫離隨技術不斷擴展而疲于運營的窘境。
AIOps能夠繼續(xù)支持企業(yè)多年來投資部署的原有工具與基礎設施,并在整個流程中引入關鍵的AIOps智能層,由此極大提升擴展效率。通過將AI、機器學習算法、可觀察及監(jiān)控數(shù)據(jù)結合起來,AIOps能夠理解環(huán)境正常行為并生成相應警報。而這一切必須在靠近數(shù)字服務、產(chǎn)生大量數(shù)據(jù)的邊緣位置保持穩(wěn)定運營。
一旦本地及運營環(huán)境中發(fā)生異常,AIOps將立即起效,將不同來源處的重要警報關聯(lián)起來并提供具備可操作性的上下文洞見。此外,出色且全面的AIOps解決方案甚至能夠發(fā)現(xiàn)造成異常的根本原因與影響,并根據(jù)原有解決步驟及反饋要求制定出潛在的解決方案。整個流程完全發(fā)生在虛擬工作區(qū)之內(nèi),團隊成員們可以在其中開展協(xié)作、結果可視化并提供反饋結果。
AIOps會通知并授權適當人員以采取適當措施,有效簡化并厘清復雜的團隊結構、參與方法、溝通安排與升級路徑。即使立足全球范圍,AIOps仍然能夠保證合適的人員即時加入并開展協(xié)作。
當情況或事件浮出水面,AIOps還會將消息實時發(fā)送給用戶、通過基礎數(shù)據(jù)與機器學習算法快速提取洞見,據(jù)此判斷事件應該由哪些團隊負責并向相應人員發(fā)出通知。通知當中不僅包含事件描述,同時也提供響應工作所需要的上下文信息、統(tǒng)一的視圖報告,并在整個事件生命周期中持續(xù)保持同步。事件得到解決之后,AIOps將通過類似事件與預測分析提前發(fā)現(xiàn)未來可能再次出現(xiàn)的問題,同時顯著簡化取證過程以加快后續(xù)響應程度。
小結
DevOps團隊要想在當今乃至未來的現(xiàn)實場景中不斷創(chuàng)造新技術,唯一的方法就是全面引入AI技術。相信在AIOps的支持下,企業(yè)將能夠專注于建立并改善客戶體驗,拓展出前所未有的業(yè)務與利潤空間。

