騰訊云Techo Hub全國技術巡回深圳站收官 體系化展示計算技術支撐大規模應用
原創【51CTO.com原創稿件】4月17日下午,以《大規模應用下的計算技術實踐》為主題的2021 騰訊云Techo Hub技術巡回活動首站在深圳灣科技生態園盛大開啟。
在深圳,高速發展的互聯網帶來了終端應用井噴式的發展,企業需要強有力的計算能力作為支撐。活動中,來自騰訊云、虎牙和云集的八位專家與現場開發者分享了云計算、邊緣計算、大數據計算等計算形態是如何支撐大規模應用的。
多樣化的計算形態,滿足多樣化的需求
騰訊云計算高級產品經理鄒弘宇首先帶來了題為《多樣化的計算形態》的演講。
人們常把云計算比作社會發展的水和電,鄒弘宇認為,用戶對于計算的需求更加多樣化,“有的需要咖啡,有的需要茶,還有的需要東鵬特飲”。
云計算服務的初衷就是解決用戶自建機房、購買服務器帶來的資源浪費、運營成本高居不下的痛點。騰訊云也是如此。起初,騰訊云利用富余資源,通過自研的系統,實現了彈性擴容、按秒計費。到目前,騰訊云已經在全球27個地域建立了61個可用區,覆蓋北美、東南亞、歐洲等區域。在國內,除了各大城市的主要節點,騰訊云還在各大省會城市設置了節點,來滿足客戶就近接入的需求。
在IaaS層面,騰訊云擁有多樣化的計算形態:面對通用的標準型、高主頻計算、大內存應用、高IO、大容量存儲數據場景,騰訊云都有可以提供對應的服務器實例。面對異構算力場景,騰訊云有GPU、NPU、ASIC等專用場景的計算芯片,還有面對超高性能計算場景的RDMA高速互聯的計算集群,星星海高性能服務器;以及ARM架構下服務器。
鄒弘宇對此進行了詳細的介紹。GPU依托并行計算架構,具備非常強的浮點運算能力,數據吞吐量大,在高性能計算場景下變得不可替代。騰訊云以GPU為主的異構算力,通過PCI直通的技術,以及vGPU的虛擬化技術,讓機器內部使用異構算力資源。
在高性能計算方面,為了提升單機縱向的性能提,騰訊首推自研的星星海AMD云服務器,CPU核數具有208核,約700G的大內存,更大的內存帶寬,可以提供整機高達2倍的性能提升,性價比提升35%以上。在集群橫向上的提升方面,基于黑石物理服務器2.0推出的高性能計算集群,GPU算力通過RDMA高速網絡,不再遵從tcp/ip的網絡協議棧,減少內核協議棧開銷,實現0內存拷貝。
這些多樣化的計算形態的快速上線,離不開騰訊云統一算力底座:自主研發的水杉平臺系統。
通過水杉平臺系統,網絡存儲已經全卸載,同時大部分虛擬化組件也卸載到硬件芯片上,無論物理機或虛擬機,都可以更加快速地適配各式各樣的CPU、GPU的變化,讓多樣化的計算資源可以更快地提供給云上的客戶進行使用。
從中心到邊緣,從公有到私有的算力延展
接下來,騰訊云計算專家工程師陳遠帶來了題為《全網調度:無處不在的算力》的演講。
隨著5G互聯網浪潮的到來,智慧城市、工業互聯、車聯網等產業在快速發展,大量的邊緣數據隨之而來。通過邊緣計算,可以進行實時和短周期的數據處理并進行決策,進而推動產業轉型。
騰訊云通過把可用區的能力向邊緣延展,建立EdgeZone,以此在邊緣提供就近計算服務。通過CDC一體機承載云服務,然后將其輸送到運營商機房,解決邊緣計算最后一公里的傳輸問題。同時CDC一體機還能直接放在客戶的機房,實現客戶數據本地化存儲和處理。陳遠指出,無論是通過可用區延展的方式,還是通過CDC一體機進行延展的方式,其管控都是就近接入騰訊公有云區域的。
當涉及敏感性客戶需要管控、數據全面私有化部署的時候,企業可以通過騰訊云TCE解決方案來解決,騰訊云TCE對外提供的是全私有化部署解決方案,是把騰訊公有云的能力進行打包之后1:1的方式完全輸出到企業內部。
從公有云到私有云的輸出,從云計算到邊緣計算的延伸,都離不開騰訊云全網調度的能力。在此,陳遠介紹了騰訊云最新的產品:騰訊云本地專用集群CDC。CDC是騰訊云全新推出的基礎設施類產品,目的是將中心化的公有云服務,延伸為可在客戶機房落地的近場服務,融合公有云與本地 IDC 的雙重優勢,用戶可以以本地化的時延和數據安全來使用公有云的豐富能力。CDC 通過一體化機柜的形式在用戶機房部署本地化算力,資源就近接入臨近公有云地域實現統一管理,用戶可通過公有云現有工具(控制臺、API 等)來管理 CDC 資源。
陳遠將CDC的優勢總結為:標準化快速交付,開箱即用;極致混合云體驗,云上能力無縫延展;就近提供計算能力,低延時低帶寬成本;數據本地化存儲和處理;設備托管運維。
高并發系統架構的實踐
接下來,云集基礎服務負責人&高級經理張強帶來了題為《高并發下的系統架構&踩坑》的主題演講。
云集是一家電商公司,于2015年成立,總部在杭州,研發中心設在深圳。通過短短幾年的發展,云集獲得了單品單日最高銷售額2.78億,全球精選狂歡周總銷售額破25.9億,單日頁面訪問量破10.82億,單日發出包裹量超386萬,單日銷售額超10.8億等亮眼的成績。
這些成績離不開云集系統架構的支撐。在2015年的萌芽期,云集僅有一個程序員,一臺ECS+一臺RDS,解決問題完全依靠工單系統。隨著業務發展越來越快,單機系統逐漸無法支撐,云集的系統架構進入了V2.0時期。
在V2.0架構中,云集將買家和賣家APP分開,安卓和IOS各一個版本。接入層通過云計算服務的高訪問量路由到NG到接入層,再到BD,數據庫做了讀寫分離。然而這套架構系統與業務不解耦,數據庫雖然讀寫分離但是在線上業務場景中,一個數據庫掛了,業務就中斷了。所以云集開始了系統架構V3.0的改造。
V3.0首先是對架構進行了微服務化,把所有的H5、小程序等路由到接入層,從接入層開始做服務化。V3.0架構分為五層:接入層、業務層、中臺服務層、基礎層、數據層。張強將這套架構體系的亮點總結為:多地緩存、多極限流、降級開關等。通過這套架構,云集最高撐了一百多萬QBS(不包含直播)。
張強將云集的并發系統總結為三套方案:一是緩存,以空間換時間;二是限流,即形成部分的用戶體驗,保證平臺不會整體癱瘓;三是降級,以最小的閉環,完成整個交易鏈路的正常進行。對于一些非核心服務,如果影響到主業務,會毫不猶豫關掉。
在系統架構的演進過程中,云集不可避免地踩過一些“坑”。張強對緩存穿透問題、DB主從延時問題、黑產風控問題、中間件踩坑進行了詳細解讀。對于未來,云集將專注于通過技術中臺、業務中臺、SaaS等實現效能提升;緊跟低代碼趨勢,從平臺化到Serverless等前沿技術趨勢;借助騰訊云,實現精準營銷和價值最大化;通過業務、技術能夠反推產品形態。
詳解騰訊云提升可靠性背后的技術
騰訊云星星海實驗室副總監李志高,騰訊云服務器運營中心專家工程師牛犇共同帶來《騰訊云可靠性提升背后的技術應用》的演講分享。
騰訊云專家工程師牛犇介紹,隨著磁存儲技術和工藝制程的發展,硬盤容量越來越大,故障率和故障恢復時長也隨之變長,這會對云上開發帶來很大的穩定性挑戰。為了給開發者提供更為穩健的云服務,騰訊云通過對硬盤來料質量,運營監控和技術創新等手段進行智能化運營。
在來料質量方面,騰訊云采取基于業務模型的來料篩選機制,通過云業務模型與硬盤底層參數建模,分析參數統計分布,定制化篩選標準,使得硬盤年化故障率顯著降低至1/5。在運營監控方面,騰訊云的硬盤智能監控系統通過多維度硬盤健康評分和AI 故障預測,可使硬盤故障提前識別率提升至80%。
在談到對數據中心硬盤運營的未來展望,牛犇提出希望能夠利用騰訊云百萬級服務器的運營經驗以及依托騰訊云強大的服務器智能監控平臺,對新介質、新技術提前進行現網應用評估,和合作伙伴一起構建開放透明的云服務生態體系,為云上的用戶和開發者提供最優質、穩健的云服務。
李志高則對如何提高服務器內存可靠性進行了深入介紹。因為云服務器是基于物理服務器,提供的高可用性是基于物理機高可靠性和軟件優化的結果。所以物理機宕機會影響部署在云服務器上的業務,可能導致客訴甚至賠償。持續降低服務器宕機率,讓云服務不中斷,改善用戶體驗,是騰訊云的重要課題。降低宕機機率的措施主要有兩種:由于內存是降低服務器宕機率的關鍵要素,但是內存故障又是不可避免的,所以盡量降低內存故障率,并減少內存故障導致的宕機,是達成目標的關鍵路徑!騰訊云通過生產導入騰訊壓測算法、跟內存廠家合作導入SMART PPR及落地和優化多條RAS特性來實現降低內存故障率。
接下來,李志高詳細介紹了MCA Recovery的技術。
現在,騰訊云是業界第一個大規模部署MCA Recovery技術的廠家,已經能夠降低40%以上內存故障導致的宕機。騰訊云還與Intel 聯合推出了白皮書,并推動MCA Recovery成為標準特性。
虎牙直播Web網關的云演進之路
茶歇過后,虎牙直播底層計算技術和中間件技術負責人張波帶來了題為《虎牙直播Web網關的云演進之路》的演講。
張波從網關的作用、網關的云原生演進之路、及未來的展望三個方面進行了闡述。
網關的主要作用有三個:統一接入、網絡加速、通用功能offload,如認證、白名單、日志等通用功能,以及審計的功能。
對于虎牙的網關來說,統一接入的作用主要有五個:動靜分離、HTTPS加速&證書管理、入口流量的限流、智能流量轉發策略、邏輯分流與容災等。在網絡加速方面,虎牙的主要技術是通過端線做到更快的流量回源。通用功能則包括流量控制、調用審計、服務治理等。
虎牙從2017年開始做網關的自建,主要經過了四個階段:包括YY剝離,混合云的建設,云原生的演進和全球化改造。目前,虎牙正在進行網關2.0的建設。
虎牙最新的網關2.0解決方案解決的主要問題有跨洋訪問網絡質量差、跨洋專線不可靠,Reload頻繁、流量負載不均衡、接入點太多導致的勾選復雜、負載均衡功能迭代升級慢。虎牙網關2.0的演進思路,首先是為了解決全球加速的問題,在負載均衡之上引入了網絡加速層,網絡加速點和業務所在點通過專線打通,實現網絡加速。虎牙網關2.0還引入了Apisix網關解決方案。Apisix基于 OpenResty 和 etcd 來實現,和傳統 API 網關相比,APISIX 具備動態路由和插件熱加載,特別適合微服務體系下的 API 管理。
虎牙網關2.0的網絡加速產品比同類云產品的延時低了15%左右;對開發可以做到后端無需關心接入點的選擇,配置更新的時候不需要Reload,同時,模塊化帶來了開發效率的提升。
談到對未來的展望,張波認為Service Mesh是微服務治理與業務邏輯的解耦,異構系統的統一治理。一些重量級組件增加了鏈路與運維的復雜度,需要更專業的運維技能。而微網關是把網關做小,甚至可以做到一個微服務一個網關,甚至一個節點一個網關,從而實現網關的彈性。
海量規模實時計算平臺解密
接下來,騰訊云大數據流計算產品負責人鄭燦彬帶來了題為《騰訊云海量規模實時計算平臺解密》的分享。
鄭燦彬首先介紹了騰訊第三代實時計算引擎Flink。Flink的四大優勢可以總結為:豐富的實時計算的語義表達、有效的狀態管理支持、提供了Exactly-Once的容錯語義、出色的執行性能。
Flink的性能雖好,但是在上線一個任務的時候,需要經過開發、測試、部署、運維四個階段,每個階段需要用不同的工具與環境,開發效率較低。為了持續提高用戶整體的開發效率,做持續的發布和集成,騰訊云產品中心在2018年下半年,推出了云端的一站式全托管實時流計算平臺Oceanus。Oceanus集開發、測試、部署、運維于一體,同時打通了API管理、監控、日志等周邊服務,為用戶提供了一套完整的Flink作業全生命周期管理的工具平臺。
Oceanus特點如下:
開發測試:用戶可在線進行業務開發及業務邏輯調試
部署管理:用戶可在線進行作業的啟動、停止、發布、暫停、恢復及刪除等操作
運維監控:豐富的在線指標、快速診斷和自動調優能力
權限管理:用戶可進行多租戶、細粒度作業權限管理,保障生產環境安全
開放API:生命周期管理均有云API接口支持,支持作業批量管理、混合云調度訴求
Oceanus提供 Web 端多種應用構建方式,鄭燦彬詳細展示了Oceanus允許用戶快速進行業務生產,分鐘級上線新業務;提供細粒度運行指標,以便于精細化運營;允許用戶快速診斷線上故障,快速解決問題;實時根據業務負載進行在線參數調優,動態調整作業資源等特點,并詳細介紹了Oceanus基于 Kubernetes + 容器的資源管理和調度。
Oceanus 對 Flink 內核進行了大量的改進來提高其可用性,包括穩定性優化,如云原生容器化,無感知 Master Failover;豐富了 SQL 能力,如 Windowing Table-valued Function,內聯函數,增強窗口,補數窗口;性能提升,如回撤流優化。在此期間,騰訊云也將大量的內部優化貢獻到Apache Flink 開源社區,累計commit數超過400個。
在案例介紹部分,鄭燦彬以國內頂級游戲廠商的使用場景為例,介紹了其多數據源的數據同步和ETL、實時數倉-數據湖分析系統。
關于未來規劃,鄭燦彬表示騰訊云首先考慮的是產品規劃,包括元數據庫表管理、血緣管理、變量管理、多語言支持,異構資源支持,跨可用區容災調度;以及SaaS化的實時ETL工具。第二方面是內核規劃,包括支持更多的 SQL 算子、在容錯方面支持單 task 故障的快速恢復、在性能方面繼續增強,如Checkpoint 小文件處理等的優化。
邊緣計算助力行業應用
最后,騰訊云邊緣計算高級產品經理朱祥艷帶來了題為《騰訊云邊緣計算助力行業應用》的分享。
朱祥艷從騰訊云邊緣計算的布局、ECM和ECP產品介紹、行業應用三個方面進行了闡述。
騰訊云邊緣計算基礎設施的優勢主要包括:龐大的oc基礎設施支撐;騰訊龐大的2B2C業務,可以幫助騰訊云撐起邊緣計算建設規模;有強大的AI能力等賦能邊緣計算。騰訊云邊緣計算基礎設施產品相較于競品,率先提供了三通節點,且有邊緣LB服務,同時,其邊緣計算源于中心云技術方案,所以云邊協同更方便。
接下來,朱祥艷重點介紹了邊緣計算機器ECM和邊緣計算平臺ECP產品。
騰訊云ECM達到了省內覆蓋單向10ms左右的時延,5G UPF分流進一步降低了時延。通過ECM構建了高性價比分布式的應用。同時,同源技術,實現了云邊協同及無縫遷移和對接。目前,ECM在工業云、在線教育、云渲染等場景都有了較為成熟的應用。
邊緣計算平臺ECP配合邊緣網關盒子,可以覆蓋1-2ms場景。基于Docker管理和編排應用,一次編譯隨處運行,實現了高便捷特性。同時,ECP與云結合,把中心能力下放到邊緣,實現了云邊協同。ECP產品目前在智慧水利行業也有了廣泛的應用。
Techo Hub的大幕開啟,更多精彩值得期待
騰訊云一向高度重視開發者的需求,全面助力開發者的個人成長和創造價值。繼去年Techo Park開發者大會之后,今年,騰訊云全新推出Techo Hub技術巡回活動,旨在更好的和全國不同地區的開發者連接,讓更多的開發者獲得學習、交流的機會。
以“大規模應用下的計算技術實踐”為主題深圳站巡回活動拉開了2021 騰訊云Techo Hub的大幕,接下來,巡回活動還將走進西安、長沙、武漢、北京、上海、成都、杭州七座城市,持續與全國開發者分享熱點技術、主流應用、開源生態和產品革新,與廣大開發者共同成長!
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】