云平臺(tái)加速向AI就緒進(jìn)化
人工智能以大家可以感知的速度在快速普及。如今,越來(lái)越多的公司已經(jīng)或者正在評(píng)估使用人工智能技術(shù),來(lái)為其提供不可或缺的客戶洞察力和業(yè)務(wù)工具。IDC的數(shù)據(jù),2021年全球AI市場(chǎng)收入預(yù)計(jì)將同比增長(zhǎng)15.2%,達(dá)到3418億美元,2022年將進(jìn)一步加速增長(zhǎng),增幅達(dá)到18.8%。
人工智能技術(shù)的普及也對(duì)底層架構(gòu)提出了新的要求,這些要求不僅體現(xiàn)在較高的計(jì)算密度和更大傳輸能力的網(wǎng)絡(luò),還體現(xiàn)在要更好地承載AI應(yīng)用的開(kāi)發(fā)和部署。另一方面,隨著云計(jì)算和容器的普及,企業(yè)開(kāi)始利用容器來(lái)獲得AI和機(jī)器學(xué)習(xí)生命周期的靈活性、可移植性和可靠性,容器化AI逐漸成為一種越來(lái)越常見(jiàn)的部署方式。在這一背景下,一些云平臺(tái)將對(duì)AI應(yīng)用的支持作為一個(gè)重點(diǎn),面向AI應(yīng)用的容器云平臺(tái)也由此應(yīng)運(yùn)而生。
對(duì)AI支持成為云平臺(tái)的核心能力
鑒于容器化應(yīng)用帶來(lái)的可移植性、可擴(kuò)展性等能力,利用Docker和K8s搭建容器云成為眾多企業(yè)的主流應(yīng)用部署平臺(tái),支撐著企業(yè)越來(lái)越多的應(yīng)用,其中不乏核心的關(guān)鍵業(yè)務(wù)應(yīng)用。另一方面,AI給企業(yè)帶來(lái)的眾多商業(yè)價(jià)值和商業(yè)機(jī)會(huì)使得企業(yè)AI應(yīng)用的數(shù)量迅速增長(zhǎng),在云平臺(tái)部署AI應(yīng)用成為企業(yè)很自然的選擇。
通過(guò)云平臺(tái)或者容器云平臺(tái)來(lái)統(tǒng)一部署包括AI在內(nèi)的所有應(yīng)用看起來(lái)很有吸引力。比如,AI項(xiàng)目通常變化快,需要快速、靈活且可擴(kuò)展的環(huán)境,而云特別是混合云通過(guò)內(nèi)部部署和云資源的結(jié)合能很好地滿足這些需求。在混合云環(huán)境中,當(dāng)需求超過(guò)內(nèi)部最大能力時(shí),可以使用外部云資源快速擴(kuò)展,不管是計(jì)算還是存儲(chǔ)能力。這不僅帶來(lái)靈活性,還能帶來(lái)成本的節(jié)約。
不過(guò),那些沒(méi)有專門為AI優(yōu)化的云平臺(tái)對(duì)于傳統(tǒng)應(yīng)用程序可能很好,但對(duì)于數(shù)據(jù)密集型應(yīng)用程序(AI應(yīng)用)可能會(huì)存在問(wèn)題,比如過(guò)高延遲、性能不足,在流程上也不方便。因?yàn)檫@些平臺(tái)并不能保證性能或保證處理 AI 數(shù)據(jù)所需的容量,換而言之,并非為 AI 提供端到端的應(yīng)用服務(wù)而進(jìn)行了優(yōu)化。
AI系統(tǒng)是由深度學(xué)習(xí)框架、AI應(yīng)用以及服務(wù)部署組成的一個(gè)閉環(huán)。在一個(gè)傳統(tǒng)的容器云平臺(tái)部署AI應(yīng)用,首先要為AI應(yīng)用提供一個(gè)運(yùn)行環(huán)境,其中一個(gè)重要工作是部署各種AI工具,比如深度學(xué)習(xí)框架。眾所周知,深度學(xué)習(xí)框架大部分是開(kāi)源產(chǎn)品,到底選用哪個(gè)版本是一個(gè)挑戰(zhàn),更何況部署完后還需要不斷更新。其次,AI應(yīng)用的開(kāi)發(fā)涉及數(shù)據(jù)獲取、特征工程轉(zhuǎn)換、模型分布式訓(xùn)練、模型驗(yàn)證、模型灰度發(fā)布、GPU 資源監(jiān)控管理等,將整套流程的打通,并實(shí)現(xiàn)與其他應(yīng)用的資源隔離,這些都不是原生的容器和 K8s技術(shù)所能支持的,需要進(jìn)行大量技術(shù)創(chuàng)新。
因此,一些容器云平臺(tái)開(kāi)始面向AI應(yīng)用進(jìn)行優(yōu)化,包括實(shí)現(xiàn)各種AI工具、框架的預(yù)集成,同時(shí),打通數(shù)據(jù)獲取、清洗、分析處理、建模等流程,為AI應(yīng)用的開(kāi)發(fā)和部署提供盡可能地方便。
OpenShift擁抱AI
在容器云領(lǐng)域,OpenShift是一個(gè)重要的力量,尤其是在開(kāi)源領(lǐng)域,OpenShift更是主流的存在。作為一個(gè)企業(yè)級(jí)的基于Kubernetes的容器平臺(tái),它提供了面向企業(yè)應(yīng)用的容器開(kāi)發(fā)、部署和管理運(yùn)維功能,今天不少企業(yè)將自己的容器化應(yīng)用部署在OpenShift平臺(tái)。
只是OpenShift本身并非專門為AI應(yīng)用而生,當(dāng)在OpenShift上開(kāi)發(fā)和部署AI應(yīng)用的時(shí)候面臨不少挑戰(zhàn),比如與各種AI框架的集成、流程的規(guī)范、監(jiān)控和管理等。另外,傳統(tǒng)應(yīng)用和AI應(yīng)用開(kāi)發(fā)常常屬于兩個(gè)不同的群體,AI應(yīng)用由數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師為主體,變化快,相關(guān)工具和框架的迭代也很快,將這些應(yīng)用投入到生產(chǎn)環(huán)境面臨挑戰(zhàn)。而另一方面,在OpenShift平臺(tái)上的DevOps開(kāi)發(fā)實(shí)踐應(yīng)用于AI應(yīng)用也是非常有意義的。
為此,紅帽致力于實(shí)現(xiàn)在OpenShift平臺(tái)上提供對(duì)AI的支持,將這兩部分開(kāi)發(fā)整合起來(lái),這就有了Open Data Hub(簡(jiǎn)稱ODH)項(xiàng)目。ODH是紅帽一個(gè)開(kāi)源項(xiàng)目,它將20多種常用工具整合到一個(gè)框架中。ODH匯集了用在典型 AI 工作流程中自動(dòng)執(zhí)行任務(wù)的各種軟件組件,簡(jiǎn)化了數(shù)據(jù)專業(yè)人員對(duì) AI 和機(jī)器學(xué)習(xí)功能的訪問(wèn),從而大大方便了數(shù)據(jù)專業(yè)人員的工作。比如,Open Data Hub預(yù)集成常見(jiàn)的開(kāi)發(fā)框架Tensflows、Pytorch等,免除了企業(yè)集成和驗(yàn)證之苦。
ODH誕生于5年前,最早只是紅帽內(nèi)部項(xiàng)目,用于存儲(chǔ)大量數(shù)據(jù),以便數(shù)據(jù)科學(xué)家可以訪問(wèn)海量數(shù)據(jù)以構(gòu)建模型。項(xiàng)目最初,紅帽工程師選擇了 Ceph作為存儲(chǔ)系統(tǒng),隨后工程師又將一些工具加入進(jìn)來(lái),包括Jupyter、Apache Spark 和 TensorFlow。有些 Red Hat 客戶知道后對(duì)這個(gè)軟件很感興趣,并表示要試用該軟件。這樣,在2018 年紅帽公司決定將 ODH 變成一個(gè)開(kāi)源項(xiàng)目,供普通大眾下載和使用。
ODH 軟件運(yùn)行在 OpenShift 之上,Red Hat 建議使用開(kāi)源 Ceph 平臺(tái) Ceph Storage,但任何與 S3 兼容的對(duì)象存儲(chǔ)都應(yīng)該可以使用。ODH在 Kubernetes 和 S3/Ceph 基礎(chǔ)之上,匯集了許多其他開(kāi)源項(xiàng)目,這些項(xiàng)目被世界各地的數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和數(shù)據(jù)工程師使用。比如,ODH 支持 Spark、TensorFlow、PyTorch、Spark SQL、Elasticsearch、Kafka Streams,還有可供數(shù)據(jù)管理員和 DevOps 工程師使用的一些工具,并且這種能力已經(jīng)很好地集成在OpenShift中。在OpenShift中只要進(jìn)行一些簡(jiǎn)單的點(diǎn)選,就可以部署一個(gè)包括Knative、Tensflows、Kafa等各種軟件的開(kāi)發(fā)環(huán)境,對(duì)于AI應(yīng)用的開(kāi)發(fā)非常友好,同時(shí),OpenShift原來(lái)的DevOps能力、CI/CD能力也能為AI開(kāi)發(fā)所用,極大地方便了AI應(yīng)用的開(kāi)發(fā)。
今天,面對(duì)智能化應(yīng)用的大潮,企業(yè)必須擁抱AI,一個(gè)好的開(kāi)發(fā)和部署平臺(tái)必不可少。紅帽通過(guò)OpenShift的容器化能力+ODH所提供的人工智能支持,可以幫助用戶打造一個(gè)功能更為全面的新一代應(yīng)用開(kāi)發(fā)和部署平臺(tái)。其中尤為重要的是,這種能力是建立在開(kāi)源平臺(tái)上,避免了廠商鎖定,能最大程度地賦能客戶創(chuàng)新,助力其開(kāi)發(fā)出更具商業(yè)價(jià)值的新一代應(yīng)用,以加速企業(yè)的數(shù)字化轉(zhuǎn)型之旅。