騰訊云智能融合 AI+數(shù)據(jù),重塑數(shù)據(jù)管理新范式
原創(chuàng)WOT 全球技術(shù)創(chuàng)新大會(huì)2024·北京站于 6 月 22 日?qǐng)A滿落幕。本屆大會(huì)以“智啟新紀(jì),慧創(chuàng)萬物”為主題,邀請(qǐng)到 60+ 位不同行業(yè)的專家,聚焦 AIGC、領(lǐng)導(dǎo)力、研發(fā)效能、架構(gòu)演進(jìn)、大數(shù)據(jù)等熱門技術(shù)話題進(jìn)行分享。
近年來,數(shù)據(jù)和人工智能已成為推動(dòng)各行業(yè)創(chuàng)新和增長(zhǎng)的關(guān)鍵力量。但如何將數(shù)據(jù)與人工智能融合,從而創(chuàng)造更大的價(jià)值,是企業(yè)都在尋找的答案。在 WOT 全球技術(shù)創(chuàng)新大會(huì)《AI 與數(shù)據(jù)的智能融合》專場(chǎng)中,來自騰訊云的三位專家分享了騰訊云在數(shù)據(jù)管理與人工智能領(lǐng)域的技術(shù)成果和成功案例,并探討二者如何智能融合為企業(yè)提供更高效、更智能的數(shù)據(jù)服務(wù)。
數(shù)據(jù)庫 AI+Serverless 助力企業(yè)降本增效
騰訊云高級(jí)技術(shù)產(chǎn)品經(jīng)理 陳昊
隨著數(shù)據(jù)庫技術(shù)的不斷迭代,我們已經(jīng)邁入數(shù)據(jù)庫3.0時(shí)代——Serverless 數(shù)據(jù)庫服務(wù)興起。Serverless數(shù)據(jù)庫具有兩大特點(diǎn):隨取隨用和按需付費(fèi),實(shí)現(xiàn)了資源的精準(zhǔn)分配和合理計(jì)費(fèi)。TDSQL-C Serverless數(shù)據(jù)庫則充分發(fā)揮 Serverless 數(shù)據(jù)庫架構(gòu)的特點(diǎn),幫助用戶實(shí)現(xiàn)極致的彈性以及降本增效。
TDSQL-C Serverless 數(shù)據(jù)庫架構(gòu)分為接入層、管控層、計(jì)算層和存儲(chǔ)層。接入層增加了獨(dú)有的恢復(fù)感知器。恢復(fù)感知器是輕量級(jí)類 Proxy,用做 Serverless 數(shù)據(jù)庫實(shí)例喚醒時(shí)的鏈接保持,確保在數(shù)據(jù)庫沒有負(fù)載時(shí)暫停,在需要訪問數(shù)據(jù)庫時(shí)快速拉起實(shí)例的同時(shí)保證鏈接不斷,并且根據(jù)權(quán)重設(shè)計(jì)訪問路徑。這種極致的彈性伸縮,TDSQL-C Serverless 架構(gòu)是如何實(shí)現(xiàn)的呢?
陳昊介紹,TDSQL-C Serverless 數(shù)據(jù)庫架構(gòu)采用預(yù)制資源模式,提前預(yù)留資源,從而避免事后彈性方式的彈性間隔,實(shí)現(xiàn)瞬時(shí)滿載,并根據(jù) CPU 監(jiān)控?cái)U(kuò)展 Buffer pool,實(shí)現(xiàn)動(dòng)態(tài)調(diào)整 BP。TDSQL-C Serverless 架構(gòu)支持 RW 節(jié)點(diǎn)和 RO 節(jié)點(diǎn)混部模式,為用戶預(yù)制普通規(guī)格資源的同時(shí),搭載能夠?qū)崿F(xiàn)橫向彈性和縱向彈性的Serverless。
如果數(shù)據(jù)庫在進(jìn)行彈性調(diào)整的過程中,對(duì)業(yè)務(wù)產(chǎn)生抖動(dòng)怎么辦?針對(duì)這一點(diǎn),陳昊介紹了 Buffer pool 的運(yùn)行機(jī)制。Buffer pool 由多個(gè)instance組成,每個(gè)instance都包含 chunk,其中block是內(nèi)存的最小管理單元,每個(gè) block 大小為16KB。這些 block 用于存儲(chǔ)熱數(shù)據(jù)。擴(kuò)縮容操作涉及調(diào)整 chunk 區(qū)的大小,在操作過程中,Buffer pool 內(nèi)部的兩個(gè)關(guān)鍵鏈表——Lru list(最近最少使用列表)和Free list(空閑列表)發(fā)揮了重要的作用。擴(kuò)容時(shí),首先從 Free list 中添加新的 block,然后將這些新添加的 block 移動(dòng)到 Lru list 中,完成擴(kuò)容過程。
比起擴(kuò)容,縮容更容易出現(xiàn)抖動(dòng)。為了避免這一情況,TDSQL-C通過三種方式解決產(chǎn)生毛刺的問題:
第一,針對(duì)持久化 page 導(dǎo)致的 IO 瓶頸,TDSQL-C 采用 redo log 在存儲(chǔ)層異步生成 page,計(jì)算節(jié)點(diǎn)無需刷臟直接丟棄淘汰 page。
第二,針對(duì)遍歷過程中持有 mutex 鎖時(shí)間過長(zhǎng)的問題,TDSQL-C 能夠按地址遍歷需要被回收的 chunk 中的 block,并且加鎖區(qū)間由整個(gè) Lru 鏈表變成單個(gè) block。
第三,針對(duì)獲取 BP 全局鎖執(zhí)行時(shí)間過長(zhǎng)的問題, TDSQL-C 采用延遲釋放chunk 和提前預(yù)分配chunk的方式,同時(shí)優(yōu)化 resize hash 算法,改為異步模式。
TDSQL-C Serverless架構(gòu)還能幫助用戶極大程度減少存儲(chǔ)成本。TDSQL-C Serverless 架構(gòu)采用了全球首創(chuàng)的可釋放存儲(chǔ)技術(shù)。當(dāng)數(shù)據(jù)庫中的實(shí)例暫停后,數(shù)據(jù)會(huì)自動(dòng)歸檔到 COS 中,實(shí)現(xiàn)靈活存儲(chǔ)。恢復(fù)實(shí)例時(shí),則按照表的訪問順序進(jìn)行數(shù)據(jù)恢復(fù),優(yōu)先恢復(fù)最先被訪問的表,同時(shí)保證恢復(fù)過程不影響數(shù)據(jù)庫的整體訪問,極大程度降低了存儲(chǔ)成本。
隨著 AI 技術(shù)的爆發(fā),AI 與數(shù)據(jù)庫開始融合,并且走向 AI4DB。既然我們已經(jīng)來到 AI4DB 時(shí)代,AI+Serverless該如何實(shí)現(xiàn)?如何幫助應(yīng)用快速落地?陳昊表示,未來騰訊云 TDSQL 數(shù)據(jù)庫將結(jié)合混元大模型的能力,在智能運(yùn)維、極致成本和智能預(yù)測(cè)等方向發(fā)力,借助AI的能力幫助用戶降本增效。
大模型時(shí)代下的存儲(chǔ)系統(tǒng)
騰訊云高級(jí)產(chǎn)品經(jīng)理 林楠
在當(dāng)前時(shí)代的發(fā)展中,企業(yè)正逐步利用大規(guī)模的對(duì)象存儲(chǔ)來構(gòu)建企業(yè)級(jí)數(shù)據(jù)湖和智能存儲(chǔ)服務(wù),存儲(chǔ)系統(tǒng)正朝著更加彈性、高效和智能的方向發(fā)展,以滿足企業(yè)在數(shù)據(jù)處理和利用方面日益增長(zhǎng)的需求。隨著大模型的出現(xiàn),存儲(chǔ)系統(tǒng)還需要滿足大模型訓(xùn)練和推理過程中對(duì)數(shù)據(jù)規(guī)模、性能和穩(wěn)定性的多樣化需求,以及在處理海量數(shù)據(jù)的同時(shí)保證對(duì)高價(jià)值數(shù)據(jù)的高性能訪問,實(shí)現(xiàn)大規(guī)模存儲(chǔ)與高性能訪問的平衡,確保大模型的高效訓(xùn)練和推理能力。
騰訊云是如何應(yīng)對(duì)多樣化的存儲(chǔ)需求的呢?首先,騰訊云通過全球基礎(chǔ)設(shè)施,在 21個(gè)地區(qū)部署 3200+ 加速節(jié)點(diǎn),為企業(yè)提供卓越、穩(wěn)定的公網(wǎng)接入和傳輸能力,滿足企業(yè)安全、高效、可靠的數(shù)據(jù)遷移需求。在過往的數(shù)據(jù)遷移案例中,我們?cè)?jīng)支持過數(shù)十 PB 甚至上百 PB 數(shù)據(jù)的穩(wěn)定遷移。
其次,騰訊云全自研對(duì)象存儲(chǔ)引擎 YottaStore 能夠?yàn)榇竽P陀?xùn)練和推理提供非常堅(jiān)實(shí)的底座支持。在數(shù)據(jù)接入層面,騰訊云自研了無狀態(tài)的彈性接入集群,支持豐富的公網(wǎng)接入和彈性伸縮能力;在存儲(chǔ)引擎層面,騰訊云提供了原生多 AZ 的特性,提供了高可靠的存儲(chǔ)能力;通過元數(shù)據(jù)分級(jí)存儲(chǔ)等方式,單集群可以輕松擴(kuò)展到百 EB 級(jí)別。通過深耕軟硬件技術(shù)優(yōu)化,騰訊云對(duì)象存儲(chǔ)一方面可以滿足業(yè)務(wù)不同規(guī)模、不同類型的數(shù)據(jù)存儲(chǔ)需求;另一方面,也為業(yè)務(wù)提供了連續(xù)可用的服務(wù),保證數(shù)據(jù)隨時(shí)可訪問,數(shù)據(jù)可以永久存儲(chǔ)、不壞不丟。
存儲(chǔ)系統(tǒng)存在著海量數(shù)據(jù),企業(yè)如何找到真正需要用的數(shù)據(jù)?這就需要騰訊云自研的 GooseFS 三級(jí)加速服務(wù)來提升數(shù)據(jù)使用效率。GooseFS可以將數(shù)據(jù)智能存儲(chǔ)到內(nèi)存、計(jì)算集群的本地盤、或可用區(qū)的全閃存儲(chǔ)集群等不同級(jí)別的緩存中,提供亞毫秒級(jí)的數(shù)據(jù)訪問時(shí)延、百萬級(jí)的IOPS和Tbps級(jí)別的吞吐能力,有效提升數(shù)據(jù)清洗效率。
AI 場(chǎng)景中存在海量文件的存儲(chǔ)和訪問需求,因此GooseFS 面臨著海量元數(shù)據(jù)存儲(chǔ)以及數(shù)據(jù)親和性調(diào)度的挑戰(zhàn)。為了應(yīng)對(duì)海量元數(shù)據(jù)存儲(chǔ)的壓力,GooseFS 通過在高性能 KVDB 上實(shí)現(xiàn)了元數(shù)據(jù)分庫分表、跨節(jié)點(diǎn)硬鏈等技術(shù)手段,有效提升元數(shù)據(jù)規(guī)模和平行擴(kuò)展能力,當(dāng)遇到主節(jié)點(diǎn)元數(shù)據(jù)訪問故障時(shí),整個(gè)元數(shù)據(jù)的訪問可以快速遷移到備節(jié)點(diǎn)中。通過這些方式,GooseFS可以為大模型訓(xùn)練場(chǎng)景提供百億級(jí)的熱點(diǎn)元數(shù)據(jù)存儲(chǔ)能力,提供百萬級(jí) IOPS,并且可以在高壓情況下做到秒級(jí)故障恢復(fù)的能力。
第一個(gè)能力是一體化AI審核+存儲(chǔ)。在大模型的生產(chǎn)框架中,無論是訓(xùn)練還是推理都會(huì)涉及內(nèi)容安全的問題,因此騰訊云數(shù)據(jù)萬象在存儲(chǔ)端提前預(yù)置審核能力,通過對(duì)用戶輸入和AIGC模型輸出這兩個(gè)階段的內(nèi)容審核,可以充分保障內(nèi)容安全的合規(guī)要求。數(shù)據(jù)萬象的審核能力可以根據(jù)數(shù)據(jù)存儲(chǔ)位置智能地調(diào)度處理集群,通過近存儲(chǔ)側(cè)的處理能力,從而提供更優(yōu)的數(shù)據(jù)傳輸時(shí)延和更低的成本。
第二個(gè)能力是知識(shí)產(chǎn)權(quán)保護(hù)。現(xiàn)階段 AIGC 產(chǎn)權(quán)并沒有明確的標(biāo)識(shí)物,但當(dāng) AIGC 的產(chǎn)物被大規(guī)模應(yīng)用時(shí),知識(shí)產(chǎn)權(quán)保護(hù)的需求也會(huì)隨之而生,這個(gè)時(shí)候就需要明確聲明產(chǎn)出物的模型主權(quán)。騰訊云數(shù)據(jù)萬象的數(shù)字水印技術(shù)提供一站式明暗水印添加能力,可以在圖片、視頻,文本中嵌入機(jī)密信息,保證數(shù)字產(chǎn)品的版權(quán)保護(hù)和侵權(quán)溯源。
第三個(gè)能力是多模態(tài)智能檢索。與傳統(tǒng)的基于標(biāo)簽的標(biāo)量檢索不同,騰訊云數(shù)據(jù)萬象MetaInsight通過預(yù)先計(jì)算數(shù)據(jù)的向量空間并存儲(chǔ)于向量數(shù)據(jù)庫中,再利用向量檢索技術(shù)在向量空間內(nèi)尋找相似的圖片、文本或視頻內(nèi)容,從而實(shí)現(xiàn)更精準(zhǔn)的全媒體類型跨模態(tài)檢索能力。MetaInsight支持以文搜圖、以圖搜圖等多種高性能的數(shù)據(jù)檢索手段,覆蓋了上千個(gè)細(xì)分場(chǎng)景,可以幫助客戶快速建設(shè)檢索應(yīng)用。
高性能異構(gòu)云原生 PaaS 平臺(tái)建設(shè)實(shí)踐
騰訊云中間件產(chǎn)品資深架構(gòu)師 侯詩軍
根據(jù) IDC 和 Gartner 等權(quán)威機(jī)構(gòu)的調(diào)研數(shù)據(jù),越來越多的企業(yè)正逐步將有狀態(tài)中間件、大數(shù)據(jù)和數(shù)據(jù)庫進(jìn)行云化,而算力融合是實(shí)現(xiàn)這些系統(tǒng)云化的關(guān)鍵。騰訊云憑借多年的內(nèi)部實(shí)踐和企業(yè)級(jí)市場(chǎng)經(jīng)驗(yàn),提出多級(jí)算力融合策略,作為云原生與傳統(tǒng)架構(gòu)結(jié)合的優(yōu)選方案,有效規(guī)避算力孤島,助力企業(yè)更有效地進(jìn)行云原生數(shù)據(jù)庫、大數(shù)據(jù)和中間件等有狀態(tài)業(yè)務(wù)的實(shí)施落地。
眾所周知,網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)是云計(jì)算的三大核心要素。接下來,侯詩軍從網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)三個(gè)方面介紹騰訊高性能異構(gòu)云原生平臺(tái)的建設(shè)情況。
首先,高性能的網(wǎng)絡(luò)是構(gòu)筑大規(guī)模集群的基石。騰訊云基于 eBPF 和自研的智能網(wǎng)卡的自研高性能網(wǎng)絡(luò),同時(shí)支持 Overlay 和 Underlay 等網(wǎng)絡(luò)架構(gòu),實(shí)現(xiàn)物理機(jī)、虛擬機(jī)和容器網(wǎng)絡(luò)的互聯(lián)互通,讓數(shù)據(jù)業(yè)務(wù)在不同計(jì)算形態(tài)間無縫遷移。例如騰訊內(nèi)部的節(jié)點(diǎn)和核心交換網(wǎng)基于BGP 協(xié)議進(jìn)行路由管理,通過ECMP實(shí)現(xiàn)路由級(jí)負(fù)載均衡。在節(jié)點(diǎn)層面,通過自研的 L4/L7 負(fù)載均衡器、基于 eBPF 的高性能網(wǎng)絡(luò)插件,以及對(duì)操作系統(tǒng)內(nèi)核的深度優(yōu)化,大幅的提升網(wǎng)絡(luò)轉(zhuǎn)發(fā)處理效率與性能。例如通過優(yōu)化之后的Service新增規(guī)生效時(shí)間穩(wěn)定在0.5毫秒內(nèi),較開源的Iptables和IPVS的秒級(jí)生效有質(zhì)的提升,更適合大規(guī)模集群業(yè)務(wù)迭代與快速彈性。
此外,騰訊云自研的星星海服務(wù)器和智能網(wǎng)卡系統(tǒng)。通過將網(wǎng)絡(luò)和存儲(chǔ)虛擬化卸載到智能網(wǎng)卡,進(jìn)一步減輕主機(jī) CPU 的計(jì)算負(fù)擔(dān)。在騰訊云的裸金屬新一代統(tǒng)一架構(gòu)中,通用計(jì)算和裸金屬都已全面集成自研智能網(wǎng)卡系統(tǒng),網(wǎng)絡(luò)和計(jì)算性能顯著提升。
在計(jì)算層面,騰訊云自研的 VStation 計(jì)算調(diào)度器,可同時(shí)支持黑石物理計(jì)算、通用計(jì)算以及異構(gòu)計(jì)算,包括GPU/FPGA等。騰訊云基于KMD/UMD攔截控制自研的 qGPU 方案,也有效的避免了“缺卡”、干擾問題、峰谷利用率不足等問題。qGPU可提供兩個(gè)層面的調(diào)度。第一種方式是集群層面的調(diào)度,通過平均分配策略能夠保證負(fù)載均衡,而盡量填滿策略能夠保證利用率。第二種方式是在單卡中調(diào)度多個(gè)Pod,參照vGPU調(diào)度基礎(chǔ)上提供爭(zhēng)搶模式、固定配額和保證配額增加彈性三種方式。
騰訊云還優(yōu)化了有狀態(tài)工作負(fù)載控制器,在完全兼容原生 StatefulSet 的基礎(chǔ)上增強(qiáng)了 StatefulSetPlus Workload,并支持分批灰度、一鍵回滾、HPA、原地重啟與升級(jí)等,很好的應(yīng)對(duì)有狀態(tài)數(shù)據(jù)類業(yè)務(wù)云化過程中的剛需問題。同時(shí),騰訊云自研的 SSM 控制器可以屏蔽不同類型數(shù)據(jù)庫中間件,通過 SSM Controller 統(tǒng)一創(chuàng)建,實(shí)現(xiàn)云原生的聲明式和面向終態(tài)運(yùn)維。除了 StatefulSet,騰訊云還自研了基于云原生的虛擬化 KubeVM。通過 Kubernetes 平臺(tái)可同時(shí)調(diào)度容器和虛擬機(jī),在網(wǎng)絡(luò)、算力、存儲(chǔ)多個(gè)層面上實(shí)現(xiàn)統(tǒng)一管控。
在存儲(chǔ)方面,騰訊云自研的 TCS Local Persistent Volume能夠滿足工作負(fù)載在節(jié)點(diǎn)本地存儲(chǔ)的使用需求,讓有狀態(tài)業(yè)務(wù)能充分地利用好本地存儲(chǔ)的資源。TCS Local Persistent Volume支持全生命周期單獨(dú)管理,確保工作負(fù)載被刪除后,數(shù)據(jù)不會(huì)丟失;支持調(diào)度強(qiáng)綁定,可以防止有狀態(tài)業(yè)務(wù)調(diào)度到?jīng)]有數(shù)據(jù)的工作節(jié)點(diǎn)。
在分布式存儲(chǔ)也實(shí)施了多項(xiàng)優(yōu)化措施,以提升其性能和可靠性。首先,通過三副本結(jié)對(duì)、多集群故障域、IO 與控制分離以及快照異地容災(zāi)等策略確保了存儲(chǔ)的高可用性;其次,引入了漸進(jìn)式條帶化處理方法,通過文件大小的 Hash 調(diào)度至不同存儲(chǔ)區(qū)域,優(yōu)化了存儲(chǔ)空間的利用率和讀寫性能;最后,在元數(shù)據(jù)管理方面,通過將元數(shù)據(jù)服務(wù)(MDS)信息分散至多個(gè)節(jié)點(diǎn),不僅提高了元數(shù)據(jù)的處理效率,還增強(qiáng)了系統(tǒng)的健壯性,確保了元數(shù)據(jù)性能的線性增長(zhǎng)。
有了好的能力建設(shè),接下來還需要沉淀復(fù)用,騰訊云如何賦能更多業(yè)務(wù)和對(duì)外輸出?
侯詩軍表示,在全面云化之后,公有云全棧能力下沉到私有云是私有云發(fā)展的新趨勢(shì),因此騰訊云打造了TCS云原生企業(yè)級(jí)PaaS平臺(tái)和TCE全棧企業(yè)級(jí)云平臺(tái)。TCS云原生企業(yè)級(jí)PaaS平臺(tái)能夠向下兼容第三方的異構(gòu) IaaS,向上支撐 CVM虛擬機(jī)、K8S 容器、qGPU、邊緣計(jì)算等多級(jí)算力,實(shí)現(xiàn)統(tǒng)一異構(gòu)的資源調(diào)度。在對(duì)外輸出方面,微服務(wù)、中間件、數(shù)據(jù)庫、存儲(chǔ)等能力都可以通過騰訊云TCS云原生企業(yè)級(jí)PaaS平臺(tái)快速交付至企業(yè)。例如在數(shù)據(jù)庫方面,騰訊云提供 TDSQL、CRedis、PostgreSQL 等私有化的數(shù)據(jù)庫能力;在消息中間件方面,騰訊云提供 Puslar、Ckafka、RocketMQ 等主流的消息中間件;在微服務(wù)方面,騰訊云提供 PolarisMesh 治理中心、TSF 微服務(wù)框架、RIOGW 智能API網(wǎng)關(guān)等微服務(wù)套件。目前騰訊云已在金融、政企、交通、制造、互聯(lián)網(wǎng)等多個(gè)行業(yè)落地。
最后,侯詩軍用一首詩總結(jié)了今天分享的內(nèi)容:架構(gòu)云化尋常路,循序漸進(jìn)來過渡。異構(gòu) PaaS 啟新紀(jì),算力融合創(chuàng)萬物!
以上就是《AI 與數(shù)據(jù)的智能融合》騰訊云專場(chǎng)的精彩分享。騰訊云在AI與數(shù)據(jù)領(lǐng)域的最新技術(shù)和成果不僅為企業(yè)提供了降本增效的新途徑,也為企業(yè)走向智能化提供了強(qiáng)有力的支持。隨著技術(shù)的不斷進(jìn)步和創(chuàng)新,騰訊云將繼續(xù)在智能化轉(zhuǎn)型的道路上引領(lǐng)企業(yè)走向更廣闊的未來。