有了Serverless 企業(yè)不用再為挖掘數據價值而煩惱
上世紀八十年代以前,信用卡行業(yè)判斷消費者是否違約都是通過手工評估完成。八十年代以后,專業(yè)人員開始使用數據建立關于違約的概率模型,提高了評估的準確性并擴大了評估的規(guī)模。到了九十年代,美國十大信用卡中心之一Capital One公司的創(chuàng)始人Richard Fairbank和Nigel Morris意識到利用信息技術可以處理更加復雜的預測模型,向客戶提供信用卡定制化服務。
現如今,數據的價值正在被各行各業(yè)所利用,例如電子商務企業(yè)可以提前預測客戶需求,更加精準的進行備貨;制造企業(yè)可以完善自身產品,生產出更加符合用戶需求的產品。
這也要求IT運維需要滿足基于海量運維數據對未來負載進行預測,提前規(guī)劃資源,避免異常突發(fā)事件產生。所以企業(yè)也需要轉變思路,因為原有的本地數倉和大數據平臺,在數據匯聚與運算、特征工程與數據預處理、構建人工智能模型開發(fā)與推理環(huán)境、模型訓練算力調度等方面都存在不同的限制。
現在,數據分析已經紛紛遷移到云上,而且在融入Serverless的理念后,云上分析可以提供更為極致的用戶體驗。
云上數據分析下一站Serverless
目前,將數據向云上遷移是企業(yè)持續(xù)在做的一件事,借助云上提供的數據存儲、調用、開發(fā)、分析等功能可以更好地滿足企業(yè)的數據分析、挖掘需求。
亞馬遜云科技則可以提供這一攬子的服務,經過多年的技術演進,現在亞馬遜云科技不但可以向企業(yè)提供數據分析的底層環(huán)境、算力調度、數據存儲、環(huán)境配置、開發(fā)工具等等一系列數據分析基礎設施,還基于自身技術實踐積累,提供了Amazon Redshift數據倉庫、Amazon EMR大數據分析服務、Amazon Kinesis流式數據處理框架,Amazon OpenSearch Service日志分析工具等。
與此同時亞馬遜還將Serverless的理念帶進了數據分析領域,用戶在安全便捷進行數據分析的同時,無需配置資源,可以自由調度功能模塊,讓云上數據分析變得更加容易。
例如在低配置的終端上進行代碼編寫,在編寫完數據處理與模型訓練代碼后,可以直接調用一個分布式計算任務,急速的完成數據處理與模型訓練,任務結束后,資源就可以立刻釋放,不造成一點浪費。換一個玩游戲的比喻就是,想玩3A(高成本、高體量、高質量的游戲)大作時,又不想買3080Ti顯卡,如果使用一張serverless的顯卡,只需要在游戲啟動時付一些費用,就能獲得游戲本身的計算量和靈活彈性的算力,關閉游戲時顯卡就可以自動收回。
隨著亞馬遜云科技的技術創(chuàng)新,云上的數據分析也已經進入了Serverless階段。當企業(yè)需要對海量數據進行深度挖掘、分析時,只需要三步,編寫數據分析代碼、提交任務(工作流)、debug任務(工作流),就可以啟動運算流程、獲得結果。
在這種“極簡風”使用大數據的背后,是技術的成熟與強大的技術封裝能力。如今,亞馬遜云科技已經擁有100多種服務來支持任何數據湖用例,而且更多的無服務器就地查詢與處理選項,可縮短獲得結果的時間并降低數據洞察的成本。
為現代化數據戰(zhàn)略鋪平道路的智能湖倉
為了易于分析,企業(yè)開始建設數據湖將所有數據放在單一的存儲庫中,這樣就可以基于標準的數據格式,以任何規(guī)模、低成本、安全地存儲數據,便于在以后根據應用程序和最終用戶的需求進行傳輸和轉換,現在云中的數據湖正在成為許多企業(yè)的主流策略。
為此,亞馬遜云科技制定了現代化數據戰(zhàn)略,并與Serverless理念結合越來越緊密,幫助企業(yè)更好地利用數據,更敏捷的創(chuàng)新。亞馬遜云科技推出了智能湖倉新方法,"智能湖倉"架構不僅打通湖與倉,還將湖、倉、專用數據存儲整合為一體。
其實早在 2017 年,“智能湖倉”架構就已初具雛形。當時,亞馬遜云科技發(fā)布了Amazon Redshift Spectrum,讓Amazon Redshift具備了打通數據倉庫和數據湖的能力,實現了跨數據湖、數據倉庫的數據查詢。如今“智能湖倉”基于Amazon S3構建數據湖,結合多種數據服務,形成了數據的“由內向外”,“由外向內”,“環(huán)湖運動”的數據移動方式,集成數據倉庫、大數據處理、日志分析、機器學習數據服務。
正是了解到亞馬遜云科技智能湖倉的技術優(yōu)勢,為加速創(chuàng)新并大規(guī)模實現數據使用,寶馬集團將其本地數據湖遷移到由Amazon S3提供支持的數據湖,現在寶馬集團可以每天處理來自上百萬輛汽車的TB級遙測數據,并在問題影響到客戶之前解決問題。為了更好地管理這些數據,寶馬集團引入了“數據提供者”和“數據使用者”概念,從而提高了其軟件工程團隊的自主性和敏捷性。
“數據提供者”利用亞馬遜云科技的數據分析服務(如 Amazon Kinesis Data Firehose、Amazon Lambda、Amazon Glue 和 Amazon EMR)來接收和轉換數據。然后,“數據使用者”可以利用諸如 Amazon Athena、Amazon SageMaker、Amazon Glue和Amazon EMR之類的Serverless服務,運用這些數據。提供者和使用者均是在自己的賬戶中使用這些服務,只共享可由中央 API 控制的明確定義的接口,這有助于防止出現瓶頸。各數據層均存儲在 Amazon S3 存儲桶中,其架構已在 Amazon Glue 數據目錄中注冊。
現在亞馬遜云科技智能湖倉架構中的服務基本上具備了Serverless特性,將Serverless能力擴展到分析引擎,實現自動添加或減少資源,提供恰到好處的容量,滿足企業(yè)對任何規(guī)模的數據分析需求。企業(yè)用戶再也不需要擔心因為調整集群大小或為滿足峰值容量而過度配置造成資源的浪費,進而節(jié)省時間并優(yōu)化成本。企業(yè)還可以快速、輕松地開始使用亞馬遜云科技數據分析服務,享受Serverless的自動部署、按需擴展和按需付費,不僅降低成本,還可以將數據分析服務擴展到更多用戶,也降低了“門檻”。
Serverless改變數據分析規(guī)則的極簡方式
在2021亞馬遜云科技re:Invent上針對云原生數據分析服務重磅發(fā)布了云原生數據分析serverless選項和On-demand按需選項,分別是:
Amazon Redshift Serverless
Amazon Redshift Serverless ,讓數據倉庫更敏捷,支持在幾秒鐘內自動設置和擴展資源,用戶無需管理數據倉庫集群,實現 PB 級數據規(guī)模運行高性能分析工作負載。
Amazon MSK Serverless
Amazon Managed Streaming for Apache Kafka Serverless ,讓流式數據接入與處理,支持快速擴展資源,簡化實時數據攝取和流式傳輸,實現全面監(jiān)控、移動甚至跨集群加載分區(qū),自動調配和擴展計算和存儲資源,讓用戶可以按需使用 Kafka。
Amazon EMR Serverless
Amazon EMR Serverless 讓大數據處理更敏捷,用戶無需部署、管理和擴展底層基礎設施,使用開源大數據框架(如 Apache Spark、Hive 和 Presto)運行分析型應用程序。
Amazon Kinesis Data Streams on Demand
Amazon Kinesis Data Streams是一項無服務器服務,此次提供的on Demand版本可以讓流式數據分析與實時數據場景搭建更敏捷。每分鐘可以處理數 GB 的寫入和讀取吞吐量,而不必預置與管理服務器、存儲,在成本和性能之間取得平衡且變得更加簡單。
正如全球最大的制藥公司之一羅氏制藥(Roche)首席云平臺和機器學習工程師 Yannick Misteli 博士所說:“Amazon Serverless可減輕運營負擔,降低成本,并幫助羅氏制藥規(guī)模化實踐 Go-to-Market 策略。這種極簡的方式改變了游戲規(guī)則,幫助我們快速上手并支持各種繁重的分析場景。”
有了Serverless,企業(yè)不用再為挖掘數據價值而煩惱。未來亞馬遜云科技所倡導的現代化數據戰(zhàn)略與適應云計算未來發(fā)展的Serverless理念也將深度融合,幫助企業(yè)更好地利用數據,更敏捷的進行創(chuàng)新。
本文章選自《數字化轉型方略》雜志,閱讀更多雜志內容,請掃描下方二維碼