成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何看待大數據云原生發展之路--觀 2023 云棲大會有感

大數據 云原生
作為一個大數據從業者,在公有云和容器化發展的大趨勢下,我們關注的重點已經不僅僅是大模型,大數據在未來幾年發展的重點方向是什么,大數據的技術演進路線會如何。

 2023 云棲大會在杭州如期舉行,前身是阿里云開發者大會,作為阿里的主場,國內公有云計算份額最大廠商,今年的主題是:計算,為了無法計算的價值。大會主場兩大主題:大模型和云計算。大模型的火熱和未來可預見的應用場景充分了引起了大家的重視,上午場以人工智能在阿里云的發展為主,同時闡述了云計算為人工智能算力提供了堅實的支持。下午場,云產品線負責人各自從容器、存儲、網絡、數據庫、Severless、大數據這幾個主題介紹了這一年開發和提升的成果。作為一個大數據從業者,在公有云和容器化發展的大趨勢下,我們關注的重點已經不僅僅是大模型,大數據在未來幾年發展的重點方向是什么,大數據的技術演進路線會如何。

一、從技術主論壇上看云技術的主要進展

云棲大會上午場,阿里云創始人王堅做了一場演說,說到了云計算的第三次浪潮的到來。同時,闡述了自己對云計算第一次浪潮的理解,并用 Netflix 和米哈游兩家企業的案例來表達對云計算浪潮到來所帶來的效益。第二次浪潮以傳動企業上云,比如銀行上云為代表。第三次浪潮的標志事件是北京冬奧會核心系統上云。未來,企業上云是大部分的首選,公有云擁有的規模化和云計算的人才是根本原因。這點如同傳統分散的手工作坊向集中式規模化的大型工廠演進。我們來具體看看,下午場的技術主論壇,在技術干貨或者核心產品上都有哪些提升,在大數據領域會有哪些影響。下面我會將主要產品技術演講進行摘要。

彈性計算/容器方面:核心點在于擁抱云原生,發布了基于 CIPU+ 飛天操作系統構建第三階段彈性計算。ECS 的計算從支持 Intel 到自研的倚天 710 和 AMD 芯片,各款芯片的主打方向不同。同時,對不同的 ECS 實例,做了針對價格的細分。經濟型實例主打學生、中小企業開發者、測試環境。HPC 實例、高性能高穩定實例,主打一些特殊要求行業。介紹了 ECI 容器能力,舉例某頭部公司,基于 ECI 容器的能力,構建自己的彈性大數據系統,感覺很意外的,日累計可以創建 200W 個 ECI 的實例。

存儲方面:重點是阿里云的對象存儲 OSS,也是大數據領域如果上云使用的基礎服務。提供 OSS 的標準、低頻、歸檔三種存儲類型和歸檔直讀。提升 OSS 帶寬到 100Gbps,舉例 270GB 的模型,大約 20 秒讀完。OSS 的協議兼容支持,OSS-Posix 本地文件,OSS-HDFS 兼容 Hadoop 協議。

網絡方面:阿里的飛天洛神云網絡,提升了高性能網絡接入和轉發,主要是軟硬協同、互補。云原生對網絡的挑戰,以前的網絡是為虛擬機提供的,現在要為容器 Pod 提供,兩者的數量級不同帶來的挑戰。一是容器對網卡的創建速度要求高,從原來的幾百的彈性提升到幾千,二是基于 K8s 的無縫融合,優化了各種網絡層查表和內存管理。介紹了主動重路由技術,來解決多區域網絡突然閃斷問題,以及模型訓練對大網絡帶寬的需求。

托管的K8s:主要闡述了一些使用數據,64% 用戶生產環境使用 K8s,云上 K8s 增速達到 127%。云托管的 K8s 超過本地部署,占比 73% 等。將托管的 K8s 集群產品定價重新規劃了一下。

數據庫方面:介紹了瑤池 Rds、Polardb 以及 Adb,基于開源的有 Selectdb、Mongodb、Clickhouse。其中,闡述了拳頭產品 Polardb 的性能優化。在產品方面,Rds+Redis、Polardb+Tair,內置緩存和無需人工關注讀寫一致性。同時,介紹了Adb 和 Lindorm,Lindorm 作為 Nosql 數據庫的能力和支持多模態。

大數據方面:介紹了 Pai 平臺,Maxcomputor 支持 Python 處理,Flink+Paimon 新一代實時湖倉方案,Dataworks 智能化升級,比如支持自然語言,全托管向量檢索服務 Dashvector,最后介紹將要全面 Serverless 化的產品,比如 ES、Spark、StarRocks 等。

二、大數據技術發展和應用現狀

大數據的技術發展起步于 Google 的 2003 年三篇論文,GFS、Bigtable、MapReduce,愿稱之為大數據 1.0 階段,分別闡述了海量數據存儲、快速點查、通用計算。后來基于三篇論文原型實現的大數據開源組件,Hadoop 技術體系,包含 HDFS、Hbase、Yarn、MapReduce,分別解決在廉價機器構建分布式存儲、快速點查、資源調度、海量數據計算問題。

隨著技術的發展,大數據組件的推陳推新,以 Hive、Spark、Storm 為代表,大數據邁入了 2.0 階段,同時像ELK解決特定場景的輕量化的鏈路也有了發展空間。過程中,OLAP 分析領域迎來了新的發展,如 Clickhouse、Kylin、Druid 等 OLAP 引擎。數據的主要構建方式過渡到了以類 SQL 為主。

在后面的 2.0 階段,實時計算方面,2015 年谷歌發表《Google-DataFlow》介紹了流式計算的概念,后來有了開源的 Flink 實時計算,大數據處理步入了 2.5 階段。近年來,企業迎來了上云浪潮,帶來了阿里云的迅猛發展。K8s 體系在業務系統逐漸普及。在 OLAP 領域,迎來了新一批成員,如 StarRocks、Doris 等 MPP 數據庫引擎。同時,數據湖的快速發展,Hudi、Iceberg、Delta、Paimon,在存儲層和表之間構建了一層,基于云上對象存儲近乎無限的特點,數據倉庫的概念步入了數據湖的概念。

那么我們是不是可以算進入了大數據 3.0 階段呢?我認為還有一塊需要補足。雖然大數據跟隨所在公司上云,應用了云上的基礎設置,但是大數據技術的構建,本質還是基于傳統的 ECS 來實施,從公有云的發展來看,K8s 天然提供的資源調度和編排體系能夠替代 Yarn 資源調度。基于 HDFS 的存儲,能夠使用 OSS 來構建數據湖系統。網絡方面,公有云看到了大數據云原生的趨勢,網絡方面已經做了升級改造。K8s 的彈性能力在成本的天然優勢是眾多企業的首選。那么,需要解決的問題在于計算組件如何契合K8s體系,形成云原生。

我們可以看到主要大數據組件的發展趨勢,Spark、Flink、Clickhouse、StarRocks 等,正在快速發展自身基于K8s構建應用的能力。在這個過程中,避免不了會碰到一些問題,下面我們來具體看一看。

三、大數據云原生的重難點

大數據上云和大數據云原生化是兩個不同的概念。大數據上云,一般可以理解為,企業不需要去自建機房,使用公有云作為 IDC,大數據基于公有云的基礎設施(虛擬機、存儲、網絡)來構建大數據技術體系。大數據的云原生化,則是指將大數據技術與應用部署在云原生環境中,利用云原生的優勢,如容器化、彈性伸縮、存算分離等,以實現更高效、更靈活、更可靠的大數據處理和分析。

需要注意的是,大數據云原生化的實現需要解決一些技術和生態問題,如兼容性、資源管理、計算性能和生態融合等。因此,在實現大數據云原生化時,需要進行全面的架構設計和實施方法選擇,以確保最終的解決方案能夠滿足實際需求。將大數據組件進行云原生化的升級改造,具體來說需要從存儲、計算以及調度這三個基礎維度來入手。

存儲方面相對來說,比較容易進行改造和替換,企業可以選擇市面上多種云存儲,且這種云儲存除了具備高容錯、高可靠性以外,還需要具備冷熱數據分層管理,以及與主流大數據計算引擎 Hive、Spark、Trino 等無縫兼容適配能力,如阿里云近年推出的 OSS-HDFS 云存儲。除了上述所說的云儲存以外,將大數據進行云原生化改造,重難點問題在于計算和調度這兩個維度。

K8s 之于大數據體系有幾點問題相對突出:第一是大數據離線計算對于瞬時容器的突發需求,以 Spark 任務為例,一個較大規模的 Spark 任務短時需要的 Container 可能是幾千到萬級別,K8s 的 Pod 能否快速彈出,短時超大規模鏡像拉取是否會有瓶頸。第二是隨之而來容器基礎網絡問題,如 Pod 上網絡的創建和釋放能否滿足,容器間網絡帶寬性能能否滿足。第三是容器的掛載盤普遍較小,Spark 或 Flink 都存在Shuffle數據落盤的問題。大數據云原生在計算和調度兩個維度,上述三個問題是需要解決的。

四、大數據云原生的可行性

從主論壇技術上看,大數據相關的核心基礎設施在容器上都有較大提升,如 Serverless 彈性容器和底層網絡的性能提升、OSS 帶寬的提升以及 OSS-HDFS 協議的支持。同時,開源社區中出現了各種用于大數據中間結果的 Remote Shuffle 組件,如 Celeborn 等。我認為大數據云原生化是可行的,相信很多公司的大數據發展方向會朝著云原生路線演進。在云棲大會的參會單位中,無意中看到了一家公司關于大數據云原生的案例:《米哈游大數據云原生實踐》,分享者是這家公司大數據技術專家杜安明。他們的實踐和我的想法不謀而合,下面我們來看一下他們是怎么做的。

他們主要分享了米哈游大數據架構向云原生化升級過程中的目標、探索和實踐,以及如何通過以阿里云容器服務 ACK 為底座的 Spark 云原生架構,獲得在彈性計算、成本節約以及存算分離方面的價值。

一是彈性計算。由于游戲業務會進行周期版本更新、開啟活動以及新游戲的上線等,對離線計算資源的需求與消耗波動巨大,可能是平時水位的幾十上百倍。利用K8s集群天然的彈性能力,將 Spark 計算任務調度到 K8s 上運行,可以比較輕松的解決這類場景下資源消耗洪峰問題。

二是成本節約。依托阿里云容器服務 Kubernetes 版 ACK 集群自身強大的彈性能力,所有計算資源按量申請、用完釋放,再加上我們對 Spark 組件的定制改造,以及充分利用 ECI Spot 實例,在承載同等計算任務和資源消耗下,成本節約達 50%。

三是存算分離。Spark 運行在 K8s 之上,完全使用 K8s 集群的計算資源,而訪問的數據也由 HDFS、OSS 逐步切換到 OSS-HDFS 上,中間 Shuffle 數據的讀寫采用 Celeborn,整套架構實現了計算和存儲的解耦,易于維護和擴展。

整個分享看下來,米哈游大數據攻克了很多重難點問題,已經實現了大數據計算的云原生化,并且取得了很不錯的收益。

附錄:

2023 云棲大會技術主論壇:https://yunqi.aliyun.com/2023/techkeynotesession。

開源大數據平臺 3.0 技術解讀: https://mp.weixin.qq.com/s/iEAl4qk2pkabCi-vfOBRyA。

米哈游大數據云原生實踐:https://mp.weixin.qq.com/s/VTV9J6J1J-KZlYO79M_J4g。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2020-12-14 15:28:05

云計算架構云原生

2023-01-03 13:59:17

Kubernetes容器

2021-08-10 10:38:30

云原生Serverless鴻鵠會

2015-09-28 17:41:49

阿里云云棲大會貴州交警

2023-10-20 07:18:38

金融業數據庫技術

2011-11-30 17:05:22

數據技術

2023-09-19 14:52:20

2021-03-18 14:30:18

大數據IT職業

2016-07-01 10:55:19

易觀大數據

2021-06-08 09:45:46

大數據云原生EMR Spark o

2015-08-20 09:21:12

大數據云平臺

2021-06-08 10:43:05

物聯網云存儲IoT

2020-04-29 22:29:04

大數據算法應用

2021-03-23 14:11:10

大數據大數據深度算法

2013-04-15 10:14:45

阿里巴巴大數據

2016-11-21 09:19:37

大數據制造互聯網

2019-03-10 21:25:01

大數據云計算數據

2016-05-30 17:59:40

EsriGIS

2016-08-24 13:45:17

大數據云計算

2021-05-07 13:42:30

大數據互聯網工作
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久国产精品久久久久久久久久 | 精品欧美乱码久久久久久1区2区 | 99久久精品一区二区毛片吞精 | 免费观看一级特黄欧美大片 | 伦理午夜电影免费观看 | 欧美中文 | 91精品久久 | 久久免费视频2 | 欧美在线a | 免费一级网站 | 亚洲每日更新 | 久久草视频 | 国产精品久久久久久婷婷天堂 | 成人在线免费视频 | 国产精品成人品 | 中文字幕国产 | 中文字幕日韩欧美一区二区三区 | 一区二区三区四区不卡 | 狠狠草视频 | 亚洲韩国精品 | 欧美不卡网站 | 黄色片免费看视频 | 成年免费大片黄在线观看岛国 | 91国内精精品久久久久久婷婷 | av激情影院 | 中文在线a在线 | 国产我和子的乱视频网站 | 97国产精品视频人人做人人爱 | 国产福利在线免费观看 | 一区二区三区精品 | 精品亚洲一区二区三区四区五区 | 一区二区三区在线播放视频 | 亚洲激情在线观看 | 国产精品久久久久久久久久三级 | 国产a区 | 亚洲综合色视频在线观看 | 亚洲 欧美 日韩在线 | 99福利| 日韩乱码在线 | 在线欧美亚洲 | 激情伊人网 |