云化、智能化、NoSQL:數(shù)據(jù)庫市場三大看點
雖然中國周邊國家新冠疫情此起彼伏,暫時還難以消停,但目前我們國內(nèi)的疫情已經(jīng)基本控制,生產(chǎn)、生活正在慢慢回復常態(tài),因此是時候讓我們把關(guān)注的目光重新轉(zhuǎn)回到眼下的科技領(lǐng)域,回到我們所處的IT行業(yè)。
就數(shù)據(jù)庫市場而言,2019年可謂看點頗多,一大亮點就是新品頻出,不只是有華為這樣的大廠推出了自己的GaussDB數(shù)據(jù)庫,其他云服務(wù)商和一些從事數(shù)據(jù)相關(guān)業(yè)務(wù)的廠商也紛紛推出了自己的數(shù)據(jù)庫產(chǎn)品,這是近些年來少有的一個現(xiàn)象。另一個值得關(guān)注的變化是,關(guān)系型數(shù)據(jù)庫壟斷的格局正在被打破,以MongoDB為代表的NoSQL迅速崛起。
數(shù)據(jù)庫市場經(jīng)過40多年的演進,不少人認為其技術(shù)已經(jīng)趨于成熟,市場趨于穩(wěn)定。事實證明,技術(shù)從來不會停止創(chuàng)新的腳步,在云、AI等技術(shù)的帶動下,數(shù)據(jù)庫市場依然充滿活力,值得期待。
云化與分布式:讓數(shù)據(jù)庫自由伸縮
2019年年中Gartner發(fā)布的研究報告《The Future of the Database Management System (DBMS) Market Is Cloud》引發(fā)了業(yè)內(nèi)的廣泛關(guān)注。Gartner在該報告中提出,數(shù)據(jù)庫的云服務(wù)是大趨勢,將數(shù)據(jù)庫安裝在企業(yè)數(shù)據(jù)中心的服務(wù)器上已經(jīng)或者很快將成為一種“過時”的方法。
數(shù)據(jù)庫的主戰(zhàn)場從傳統(tǒng)的本地市場轉(zhuǎn)到了云是云原生數(shù)據(jù)庫和服務(wù)崛起的必然結(jié)果。AWS的Aurora被認為是AWS歷史上增長速度最快的一款云服務(wù);POLARDB在阿里云2018年4月才開始商用,但在Gartner公布的2019年全球數(shù)據(jù)庫魔力象限評選中,阿里云就成功進入“挑戰(zhàn)者”象限,連續(xù)兩年作為唯一中國企業(yè)入選。除了AWS、阿里云,今天不少云服務(wù)商都推出了自己的云數(shù)據(jù)庫。
實際上,不只是傳統(tǒng)數(shù)據(jù)庫,作為NoSQL領(lǐng)頭羊MongoDB的云服務(wù)版本Altas同樣受到市場歡迎,Altas已經(jīng)成為MongoDB重要的收入來源,營收占比超過40%。去年年底,阿里云與MongoDB達成戰(zhàn)略合作,宣布在阿里云平臺上推出最新版MongoDB數(shù)據(jù)庫云服務(wù)MongoDB 4.2。這肯定會進一步加速MongoDB未來在云服務(wù)市場的拓展,尤其是中國市場。
阿里云智能數(shù)據(jù)庫事業(yè)部負責人李飛飛曾明確表示,未來的數(shù)據(jù)庫一定是云原生和分布式。因為云原生數(shù)據(jù)庫在成本、靈活度、安全、技術(shù)進化層面都優(yōu)于傳統(tǒng)數(shù)據(jù)庫,“傳統(tǒng)數(shù)據(jù)庫會像馬車一樣被更為先進的汽車即云原生數(shù)據(jù)庫淘汰。”他說。
新一代數(shù)據(jù)庫崛起的一個核心原因是大數(shù)據(jù)時代的來臨。今天我們正處于一個數(shù)據(jù)大爆炸的時代,要應(yīng)對數(shù)據(jù)的爆炸性增長需要數(shù)據(jù)庫具有足夠的彈性,而在云上資源天生池化,這就為滿足客戶業(yè)務(wù)變化的峰值、峰谷需求奠定了很好的基礎(chǔ),再結(jié)合新一代數(shù)據(jù)庫的分布式架構(gòu)結(jié)合計算、存儲分離等一系列技術(shù)就可以很好地解決可擴展性問題。
以MongoDB為例,MongoDB的一大亮點是其存儲和訪問海量數(shù)據(jù)的能力,就是依賴其分布式架構(gòu)實現(xiàn)的,包括數(shù)據(jù)的分片、擴容/縮容時數(shù)據(jù)的自動均衡、分片信息的存取以及高可用,這些特性的集成使得MongoDB數(shù)據(jù)庫能從容應(yīng)對海量數(shù)據(jù)的存儲和訪問需求。類似的,阿里云的POLARDB也是通過分布式共享存儲架構(gòu)、采用計算與存儲分離技術(shù)大大提升了數(shù)據(jù)庫的存儲容量。
實際上,當云時代誕生的新一代數(shù)據(jù)庫把分布式技術(shù)、云的靈活擴展以及成本優(yōu)勢淋漓盡致地充分展示出來,激發(fā)出來的強大的創(chuàng)新能力、豐富多樣的產(chǎn)品體系、經(jīng)濟高效的部署方式和按需付費的支付模式,這些優(yōu)勢讓傳統(tǒng)數(shù)據(jù)庫很難企及。根據(jù)IDC的研究,2021年會成為轉(zhuǎn)折一年,存儲在云上的數(shù)據(jù)量將超過傳統(tǒng)數(shù)據(jù)中心,在這一變化之下云數(shù)據(jù)庫的普及終將成為必然。
智能化:讓數(shù)據(jù)庫更聰明
數(shù)據(jù)庫運維是一件非常復雜的工作,尤其是涉及企業(yè)核心數(shù)據(jù)庫時,其中保存了企業(yè)重要的數(shù)據(jù),對操作人員的要求非常高,因此數(shù)據(jù)庫管理員一直是市場緊缺人才。不過,得益于人工智能、機器學習等技術(shù)的進步,這種狀況有望慢慢得到緩解。
2017年甲骨文提出了“自治數(shù)據(jù)庫”這個概念,引發(fā)業(yè)界對人工智能在數(shù)據(jù)庫的應(yīng)用前景的關(guān)注。2018年甲骨文的新一代數(shù)據(jù)庫ADW正式上市,我們看到,甲骨文的確朝著把數(shù)據(jù)庫管理員從繁重的數(shù)據(jù)庫優(yōu)化、各種調(diào)優(yōu)以及數(shù)據(jù)庫備份中解脫出來的方面上邁出了一大步,它讓管理員能騰出了更多時間去做一些高附加值的工作。根據(jù)甲骨文提供的資料,通過自動運行、自動完成打補丁、自動完成數(shù)據(jù)的備份、自動修復等,甲骨文自治數(shù)據(jù)庫能降低70%的運維工作量,將數(shù)據(jù)庫平均宕機時間減少到每月2.5分鐘。
實際上,隨著人工智能、機器學習技術(shù)的快速發(fā)展,利用它們來優(yōu)化數(shù)據(jù)庫內(nèi)核和以及數(shù)據(jù)庫運維、管控等一系列動作已經(jīng)成為數(shù)據(jù)庫行業(yè)的共識。比如,數(shù)據(jù)庫管理員或者運維人員想優(yōu)化應(yīng)用軟件的負載,可能想知道需要建哪些索引;用戶體驗不佳想知道到底是那個存儲過程受到了影響、如何優(yōu)化,現(xiàn)在基本上是依賴工程師、DBA的經(jīng)驗來解決,這些未來完全可以利用機器學習、人工智能方法進行智能化的優(yōu)化。
值得一提的是,除了數(shù)據(jù)庫本身的智能化外,支持智能化應(yīng)用方面也是數(shù)據(jù)庫的一個熱點。傳統(tǒng)數(shù)據(jù)倉庫產(chǎn)品通常只能處理結(jié)構(gòu)化數(shù)據(jù),而新一代的數(shù)據(jù)倉庫無不把支持多數(shù)據(jù)類型的處理作為基本指標,比如,通過標準的SQL語句同時處理結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)(文檔、圖片甚至視頻等)。另外,數(shù)據(jù)倉庫還在努力幫助業(yè)務(wù)人員找出系統(tǒng)與系統(tǒng)之間、數(shù)據(jù)與數(shù)據(jù)之間的關(guān)聯(lián)性。借助數(shù)據(jù)庫倉庫的這一能力,業(yè)務(wù)部門即便不懂具體算法,也可以及時對相關(guān)數(shù)據(jù)做出調(diào)整。
為了支持AI應(yīng)用,新一代數(shù)據(jù)庫基本都提供了數(shù)據(jù)湖產(chǎn)品或服務(wù)。比如,MongoDB的Atlas就集成的數(shù)據(jù)湖功能。其不需要定義模式,可以就地分析 JSON、BSON、CSV、TSV、Avro 和 Parquet 等格式;只要通過一個通用的用戶界面,就可以同時對數(shù)據(jù)湖和 Atlas 聯(lián)機事務(wù)處理集群進行操控,非常方便。
NoSQL崛起:為大數(shù)據(jù)而來
除了云數(shù)據(jù)庫的崛起之外,這幾年數(shù)據(jù)庫市場另一個重大變化的是以NoSQL為代表的非關(guān)系型數(shù)據(jù)庫的異軍突起。
NoSQL誕生之前,數(shù)據(jù)庫市場基本是關(guān)系型數(shù)據(jù)庫(RDBMS)的天下,無論是理論知識還是數(shù)據(jù)庫產(chǎn)品乃至生態(tài)都已經(jīng)非常成熟,而NoSQL走的是一條完全不同的技術(shù)路線。它與關(guān)系型數(shù)據(jù)庫以行和列構(gòu)成的表來存儲數(shù)據(jù)不同,而NoSQL是以鍵、值對來存儲數(shù)據(jù)。
NoSQL的崛起有兩個最重要的原因,其一是大量非結(jié)構(gòu)化數(shù)據(jù)的涌現(xiàn),有數(shù)據(jù)顯示新增數(shù)據(jù)中超過80%是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)用關(guān)系型數(shù)據(jù)庫來處理成本,高昂還不夠靈活,而NoSQL數(shù)據(jù)庫不僅數(shù)據(jù)存儲非常靈活,同時擴展靈活,從而受到市場熱捧。
在NoSQL市場MongoDB無疑是表現(xiàn)最為亮眼的一個。來自于DB-Engine的市場數(shù)據(jù)顯示,MongoDB已經(jīng)持續(xù)多年與Oracle、MySQL、SQL Server、PostgreSQL一起位列全球五大最流行的數(shù)據(jù)庫,其影響力已經(jīng)超過傳統(tǒng)數(shù)據(jù)庫DB2。
作為文檔型數(shù)據(jù)庫的代表,MongoDB采用的是BSON文件格式,MongoDB對數(shù)據(jù)結(jié)構(gòu)沒有嚴格要求,可以根據(jù)需要靈活增減字段,簡單方便,而且MongoDB是原生的分布式數(shù)據(jù)庫,天生地具有快速的水平擴展能力,非常適合海量數(shù)據(jù)的各種應(yīng)用場景。MongoDB流行的另一個非常重要的原因在于其對程序員非常友好。相比于傳統(tǒng)數(shù)據(jù)庫需對復雜的表、庫進行操作以及多次存取數(shù)據(jù),MongoDB開發(fā)人員不用去設(shè)計那些表、庫之間的各種復雜關(guān)系,只需一次存取,就可拿到想要的數(shù)據(jù),程序員非常容易使用,開發(fā)效率非常高。
去年,MongoDB推出了最新版本——MongoDB 4.2,通過支持分布式事務(wù)、自動重試和修改分片鍵等讓開發(fā)變得更快速、更輕松。同時,新的物化視圖、Kafka連接器和對Kubernetes的支持以及客戶端加密等,讓應(yīng)用變得更健壯,使得MongoDB 4.2完成了一個里程碑式的升級。這些新特性再加上MongoDB與生俱來的云原生的分布式拓展能力無縫結(jié)合,使得MongoDB再次走到了NoSQL陣營的前列。
值得一提的是,除了NoSQL/NewSQL之外,近年來圖數(shù)據(jù)庫市場的成長也值得關(guān)注,來自Gartner研究報告顯示,2019年—2022年圖數(shù)據(jù)庫市場將會以每年100%的增長率增長,尤其是在風控、反洗錢、個性化推薦等領(lǐng)域,圖數(shù)據(jù)庫應(yīng)用非常熱門。
綜上所述,經(jīng)歷了多年平穩(wěn)發(fā)展的數(shù)據(jù)庫市場正在迎來重大變化,這背后有技術(shù)本身的進步(比如AI),更有計算環(huán)境的變化(如云計算的普及)。在這種市場中,誰能真正把握用戶需求,推出貼合用戶需求的產(chǎn)品和服務(wù)才能贏得更多的生存機會,我們也期待市場上能有更多更好的產(chǎn)品和服務(wù)!
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼