解鎖自動化運維的「正確姿勢」
去年,短視頻《后浪》作為網(wǎng)絡(luò)話題火爆網(wǎng)絡(luò),視頻中,演員何冰激情演講,以“后浪”稱呼新一代青年人,他們散發(fā)的光芒,是時代前方的希望。不過,正所謂“長江后浪推前浪,浮事新人換舊人”,“后浪”也在不斷沖擊和取代“前浪”。因此“后浪”也就具備了多一層含義:想要不被超越,就得躬身入局。
在數(shù)字化轉(zhuǎn)型的這波浪潮中,“前浪”企業(yè)要想不被“拍死在沙灘上”,就要積極投身探索與實踐,廣東移動也是其中一員。
1987年,就已在我國最早開通移動電話業(yè)務(wù)的廣東移動,是我國信息通信行業(yè)中規(guī)模最大的省級公司。這家已建成全球規(guī)模最大、結(jié)構(gòu)最為復(fù)雜的全業(yè)務(wù)移動通信網(wǎng)絡(luò),但在5G網(wǎng)絡(luò)高速建設(shè)時期,網(wǎng)絡(luò)運營同樣也面臨復(fù)雜化、難度大、成本高等挑戰(zhàn),廣東移動亟需向數(shù)智化運維模式轉(zhuǎn)型。
廣東移動云資源池運維主管馮旭瀚分享了他們的自動化運維經(jīng)驗。作為萬事開頭難的第一步,企業(yè)首先要有明確規(guī)劃,評估運維效果,當然除了顯而易見的技術(shù)問題,在整個項目實施過程中要特別留意那些隱藏在“冰山之下”的潛在或者未知風(fēng)險,如人員個人能力、流程等。他認為一個在自動化領(lǐng)域?qū)I(yè)的服務(wù)團隊非常重要。
談實踐、挑戰(zhàn)和經(jīng)驗
記者:任何軟件的開發(fā)與使用一定少不了IT運維,少不了安全穩(wěn)定的運行環(huán)境,廣東移動推動自動化運維工作的初衷是什么?是在什么樣的背景下啟動這樣一項工作的呢?
馮旭瀚:從整個的技術(shù)選型上來說,廣東移動運維自動化開始得比較早,有十年左右的時間了,從最早的腳本為主逐步進行工具化,通過平臺化實現(xiàn)整個自動化。廣東移動整個公司數(shù)字化轉(zhuǎn)型的技術(shù)核心能力,就是自動化能力,這需要高度標準化,通過這種腳本的快速執(zhí)行大規(guī)模操作,保證系統(tǒng)更安全。運維自動化、智能化轉(zhuǎn)型以及降本增效的業(yè)務(wù)目標是企業(yè)無法繞開的話題。
最近幾年,云環(huán)境下的業(yè)務(wù)需求特點是變化迅速,包括產(chǎn)品線增加以及整個云資源池運維對象的擴大,給我們整個運維工作都帶來了很大挑戰(zhàn),通過自動化工作實施提高我們的自動化成熟度,這就是我們實行自動化運維、向智能運維發(fā)展的初衷。
記者:對于自動化運維項目此前有何預(yù)期,是否達到了預(yù)期?現(xiàn)在取得了哪些效果?
馮旭瀚:預(yù)期肯定是希望不斷提升我們自動化的能力,無論是廣度、深度,還是優(yōu)先度,最終是希望可以早日實現(xiàn)智能運維,也就是現(xiàn)在所說的AIOps。
從每一年階段性的發(fā)展來講,降本增效也是我們一直想要達到的預(yù)期,通過自動化提升了工作效率、提升了工作質(zhì)量、減少了人工犯錯的成本、釋放了勞動力,我們逐步推進實現(xiàn)了部分預(yù)期,甚至可以說有部分超出了我們的預(yù)期。
舉個例子,日常中我們可以通過自動化平臺進行自動化的補丁管理,提升補丁分發(fā)、安裝、部署的效率,同時紅帽的插件工具能夠提供比較友好的人機交互界面,方便我們統(tǒng)計分析歷史數(shù)據(jù),整理運維報表,我們都可以實現(xiàn)自動化、可視化,減輕這種高度重復(fù)類的工作,從而大大節(jié)省人力,提高效率。
記者:你們選擇了什么技術(shù)來實施自動化運維,選擇的原因是什么?
馮旭瀚:在當時選擇自動化運維工具時候,我們考慮到會有很多因素,包括整個技術(shù)以及產(chǎn)品的優(yōu)缺點,可擴展性、可維護性、兼容性、穩(wěn)定性等要求。種種考慮之后,我們注意到了紅帽有一個Ansible開源工具,它的整個技術(shù)架構(gòu)在業(yè)界是被廣泛高度認可的。本身Ansible是比較輕量級,對整個操作系統(tǒng)和設(shè)備屬于非入侵式,正好我們已有的技術(shù)可以實現(xiàn)快速兼容,我們就通過引入紅帽平臺作為自動化運維工作的有效補充。
記者:自動化運維這個項目在進行過程中是否遇到了什么挑戰(zhàn)?有什么值得分享的經(jīng)驗或者教訓(xùn)?
馮旭瀚:我很高興可以和大家分享一下我們在實現(xiàn)自動化運維過程中的一些經(jīng)驗和亮點。
企業(yè)的自動化轉(zhuǎn)型做得怎么樣?有什么短板需要補?接下來怎么繼續(xù)做?大家剛開始或多或少都會缺少明確規(guī)劃,也不知道如何評估運維效果,所以第一點我建議大家開始的時候可以結(jié)合業(yè)界的經(jīng)驗或?qū)<业慕ㄗh,制定好規(guī)劃,再一步步實現(xiàn)自動化運維目標。
第二個點,技術(shù)問題我們可以看得見的“冰山之上”的問題,但整個項目實施過程中,一些其他問題隱藏在“冰山之下”,有潛在或者未知風(fēng)險,卻比較容易被忽略。例如,“藏”在技術(shù)環(huán)境下,“藏”在團隊中,還可能存在于人員能力、流程、實際自動化操作中。因此大家需要找到一個在自動化領(lǐng)域比較專業(yè)的服務(wù)團隊,比如像紅帽服務(wù)團隊這種比較專業(yè)的團隊,我們也和他們一起合作去做自動化運維的事情。
談自動化運維和智能運維
記者:您怎么看待DevOps?
馮旭瀚:DevOps是一個運維開發(fā)一體化的理念,除了所說的DevOps工具,還包括開發(fā)測試、交付、部署、運維的流程,更多也是代表一個企業(yè)文化、組織架構(gòu)。
廣東移動一直高度關(guān)注DevOps,也進行了一些實踐。譬如,2019年10月,廣東移動獲得了由當時中國信息通信研究院頒發(fā)的研發(fā)運維一體化DevOps標準的能力模型證書,我們達到了三級,在國內(nèi)是屬于領(lǐng)先水平。
記者:您怎么看待自動化運維和智能運維之間的關(guān)系?
馮旭瀚:我認為自動化運維和智能運維之間的關(guān)系,是相輔相成,缺一不可的。自動化運維的下一步階段,更加偏向于智能運維,結(jié)合人工智能技術(shù)或者是智能算法分析得出決策,再通過一些自動化方式來執(zhí)行這個策略。
記者:DevOps與自動化運維之間是否有關(guān)聯(lián)?
馮旭瀚:對整個團隊來說,帶來的改變最大在于運維效率的提升,還有降低人力,運維最終境界,智能運維的設(shè)想從運維角度來說實現(xiàn)無人值守的目標,通過這個平臺就可以實現(xiàn)故障自愈、故障預(yù)測的發(fā)現(xiàn)。
記者:在運維工作方面,您有哪些計劃目標?
馮旭瀚:運維工作下一步計劃是往智能運維方向去進行研究和發(fā)展建設(shè),在這個過程中還會繼續(xù)針對現(xiàn)在的運維自動化工具或者這個平臺去繼續(xù)打磨它,讓它變得更加完善,把整個自動化運維水平再把它繼續(xù)提升,為下一步智能運維能力去打造這種更加堅實的基礎(chǔ),這是我們下一個階段的目標。