云平臺加速向AI就緒進化
人工智能以大家可以感知的速度在快速普及。如今,越來越多的公司已經或者正在評估使用人工智能技術,來為其提供不可或缺的客戶洞察力和業(yè)務工具。IDC的數(shù)據(jù),2021年全球AI市場收入預計將同比增長15.2%,達到3418億美元,2022年將進一步加速增長,增幅達到18.8%。
人工智能技術的普及也對底層架構提出了新的要求,這些要求不僅體現(xiàn)在較高的計算密度和更大傳輸能力的網絡,還體現(xiàn)在要更好地承載AI應用的開發(fā)和部署。另一方面,隨著云計算和容器的普及,企業(yè)開始利用容器來獲得AI和機器學習生命周期的靈活性、可移植性和可靠性,容器化AI逐漸成為一種越來越常見的部署方式。在這一背景下,一些云平臺將對AI應用的支持作為一個重點,面向AI應用的容器云平臺也由此應運而生。
對AI支持成為云平臺的核心能力
鑒于容器化應用帶來的可移植性、可擴展性等能力,利用Docker和K8s搭建容器云成為眾多企業(yè)的主流應用部署平臺,支撐著企業(yè)越來越多的應用,其中不乏核心的關鍵業(yè)務應用。另一方面,AI給企業(yè)帶來的眾多商業(yè)價值和商業(yè)機會使得企業(yè)AI應用的數(shù)量迅速增長,在云平臺部署AI應用成為企業(yè)很自然的選擇。
通過云平臺或者容器云平臺來統(tǒng)一部署包括AI在內的所有應用看起來很有吸引力。比如,AI項目通常變化快,需要快速、靈活且可擴展的環(huán)境,而云特別是混合云通過內部部署和云資源的結合能很好地滿足這些需求。在混合云環(huán)境中,當需求超過內部最大能力時,可以使用外部云資源快速擴展,不管是計算還是存儲能力。這不僅帶來靈活性,還能帶來成本的節(jié)約。
不過,那些沒有專門為AI優(yōu)化的云平臺對于傳統(tǒng)應用程序可能很好,但對于數(shù)據(jù)密集型應用程序(AI應用)可能會存在問題,比如過高延遲、性能不足,在流程上也不方便。因為這些平臺并不能保證性能或保證處理 AI 數(shù)據(jù)所需的容量,換而言之,并非為 AI 提供端到端的應用服務而進行了優(yōu)化。
AI系統(tǒng)是由深度學習框架、AI應用以及服務部署組成的一個閉環(huán)。在一個傳統(tǒng)的容器云平臺部署AI應用,首先要為AI應用提供一個運行環(huán)境,其中一個重要工作是部署各種AI工具,比如深度學習框架。眾所周知,深度學習框架大部分是開源產品,到底選用哪個版本是一個挑戰(zhàn),更何況部署完后還需要不斷更新。其次,AI應用的開發(fā)涉及數(shù)據(jù)獲取、特征工程轉換、模型分布式訓練、模型驗證、模型灰度發(fā)布、GPU 資源監(jiān)控管理等,將整套流程的打通,并實現(xiàn)與其他應用的資源隔離,這些都不是原生的容器和 K8s技術所能支持的,需要進行大量技術創(chuàng)新。
因此,一些容器云平臺開始面向AI應用進行優(yōu)化,包括實現(xiàn)各種AI工具、框架的預集成,同時,打通數(shù)據(jù)獲取、清洗、分析處理、建模等流程,為AI應用的開發(fā)和部署提供盡可能地方便。
OpenShift擁抱AI
在容器云領域,OpenShift是一個重要的力量,尤其是在開源領域,OpenShift更是主流的存在。作為一個企業(yè)級的基于Kubernetes的容器平臺,它提供了面向企業(yè)應用的容器開發(fā)、部署和管理運維功能,今天不少企業(yè)將自己的容器化應用部署在OpenShift平臺。
只是OpenShift本身并非專門為AI應用而生,當在OpenShift上開發(fā)和部署AI應用的時候面臨不少挑戰(zhàn),比如與各種AI框架的集成、流程的規(guī)范、監(jiān)控和管理等。另外,傳統(tǒng)應用和AI應用開發(fā)常常屬于兩個不同的群體,AI應用由數(shù)據(jù)科學家和數(shù)據(jù)工程師為主體,變化快,相關工具和框架的迭代也很快,將這些應用投入到生產環(huán)境面臨挑戰(zhàn)。而另一方面,在OpenShift平臺上的DevOps開發(fā)實踐應用于AI應用也是非常有意義的。
為此,紅帽致力于實現(xiàn)在OpenShift平臺上提供對AI的支持,將這兩部分開發(fā)整合起來,這就有了Open Data Hub(簡稱ODH)項目。ODH是紅帽一個開源項目,它將20多種常用工具整合到一個框架中。ODH匯集了用在典型 AI 工作流程中自動執(zhí)行任務的各種軟件組件,簡化了數(shù)據(jù)專業(yè)人員對 AI 和機器學習功能的訪問,從而大大方便了數(shù)據(jù)專業(yè)人員的工作。比如,Open Data Hub預集成常見的開發(fā)框架Tensflows、Pytorch等,免除了企業(yè)集成和驗證之苦。
ODH誕生于5年前,最早只是紅帽內部項目,用于存儲大量數(shù)據(jù),以便數(shù)據(jù)科學家可以訪問海量數(shù)據(jù)以構建模型。項目最初,紅帽工程師選擇了 Ceph作為存儲系統(tǒng),隨后工程師又將一些工具加入進來,包括Jupyter、Apache Spark 和 TensorFlow。有些 Red Hat 客戶知道后對這個軟件很感興趣,并表示要試用該軟件。這樣,在2018 年紅帽公司決定將 ODH 變成一個開源項目,供普通大眾下載和使用。
ODH 軟件運行在 OpenShift 之上,Red Hat 建議使用開源 Ceph 平臺 Ceph Storage,但任何與 S3 兼容的對象存儲都應該可以使用。ODH在 Kubernetes 和 S3/Ceph 基礎之上,匯集了許多其他開源項目,這些項目被世界各地的數(shù)據(jù)科學家、數(shù)據(jù)分析師和數(shù)據(jù)工程師使用。比如,ODH 支持 Spark、TensorFlow、PyTorch、Spark SQL、Elasticsearch、Kafka Streams,還有可供數(shù)據(jù)管理員和 DevOps 工程師使用的一些工具,并且這種能力已經很好地集成在OpenShift中。在OpenShift中只要進行一些簡單的點選,就可以部署一個包括Knative、Tensflows、Kafa等各種軟件的開發(fā)環(huán)境,對于AI應用的開發(fā)非常友好,同時,OpenShift原來的DevOps能力、CI/CD能力也能為AI開發(fā)所用,極大地方便了AI應用的開發(fā)。
今天,面對智能化應用的大潮,企業(yè)必須擁抱AI,一個好的開發(fā)和部署平臺必不可少。紅帽通過OpenShift的容器化能力+ODH所提供的人工智能支持,可以幫助用戶打造一個功能更為全面的新一代應用開發(fā)和部署平臺。其中尤為重要的是,這種能力是建立在開源平臺上,避免了廠商鎖定,能最大程度地賦能客戶創(chuàng)新,助力其開發(fā)出更具商業(yè)價值的新一代應用,以加速企業(yè)的數(shù)字化轉型之旅。

