機器學習模型太大難部署？這里有 3 個解決方案

作者：skura 2020-03-09 14:42:40

樂觀的人會想，未來機器學習能夠完成駕駛汽車、接聽電話、預約、回復電子郵件這些人類才能完成的任務。

本文轉自雷鋒網，如需轉載請至雷鋒網官網申請授權。

雖然因“疫情”的影響，讓技術人群放棄了聚會，減少了面對面溝通，但他們對于學習和交流的渴望從未停歇過。為此華為特別推出了#Σco時間#系列欄目，以線上直播+互動的形式，共話技術變革與行業轉型。

3月4日下午3點，本期#Σco時間#聚焦的話題是“大數據存算是‘分’還是‘合’，您做對了嗎？”——華為智能數據與存儲分布式存儲高級營銷專家崔玉祥來到了華為“智能數據基礎設施「學數派」”直播間，分享了華為如何看待存算分離的價值，以及華為大數據的存算分離解決方案和應用實踐，并與上千位線上嘉賓探討了存算分離技術的發展趨勢和市場前景。

數字經濟時代，大數據架構走向存算分崔玉祥介紹道，在數字經濟時代，數據已經成為新的生產資料，并從數據管理走向數據運營，大數據正發揮著越來越重要的作用，數據驅動體驗、數據驅動決策、數據驅動流程的各種應用每天都在不斷上演。隨著5G和AI技術的發展，數據量必將迎來爆發式的增長，在這樣的形勢下，傳統的大數據存算一體架構，在多個行業都面臨著資源利用率不均、存儲成本高、資源共享難的挑戰。

以國內電信運營商為例，每年市場采購金額高達上億元，但是如此巨大的投資在支持電信業務的同時，也帶來了計算資源浪費，龐大的服務器設備占據機房空間導致制冷供電費用高漲等諸多挑戰，“降本增效”成為電信運營商的重要訴求。而同樣的，提升資源利用率，部署彈性靈活，按需調度計算資源這些訴求，也成為金融、政務領域用戶亟待解決的課題。

如何化解這么多挑戰？崔玉祥認為，計算存儲分離是大數據架構演進的必然趨勢，也是解決行業用戶數據痛點的一大利器。他解釋道，在Hadoop1.0時代，計算和存儲是高度融合的，僅能處理單一的MapReduce分析業務；到了Hadoop2.0時代，計算層與數據開始解耦，通過Yarn實現了獨立的資源管理，并開始支持Spark等更多的計算引擎；而如今已經到了Hadoop3.0時代，計算存儲走向分離，通過Hadoop EC來支持冷數據的存儲，逐步向數據湖架構演進。“存算分離其實更適合企業級市場，它實現了資源云化和靈活擴展，能夠讓用戶享受更專業的存儲，更佳的可靠性和利用率。”

三大優勢令華為OceanStor分布式存儲更懂用戶

在2019年，華為創新性地推出了大數據存算分離解決方案，崔玉祥向觀看嘉賓詳細講解了華為OceanStor分布式存儲，一個能夠打造更高性價比的大數據存儲方案。簡直就是為多樣式存儲和超大數據量的用戶量身定制。“簡單總結，華為OceanStor分布式存儲最鮮明的三個特點就是成本最優、效率最高、使用最簡。”

【成本最優】在成本方面，華為OceanStor分布式存儲實現存算分離，資源按需獨立擴展，彈性EC+分級，存儲成本大幅降低。“性能、可靠性和HDFS三副本相當，但是存儲利用率相比三副本提升1.75倍，”崔玉祥還特別指出，OceanStor分布式存儲可以通過自動生命周期管理獲得更佳的性價比，且計算側無感知。用戶可以定義不同的數據寫入策略，使不同類型的應用讀寫不同的存儲池，實現資源的物盡其用；用戶還可以定義數據遷移策略，實現熱、溫、冷數據的自動轉換，降低整體TCO。

他以上文中提到的電信運營商為例，運營商日志留存場景下，計算利用率為30%時，總容量需求大于256TB 時，改用存算分離方案會有TCO優勢；總容量需求大于2PB時，存算分離方案的TCO節省會達到40%以上。

【效率最高】在數據應用效率方面，華為OceanStor分布式存儲采用全對稱分布式NameNode，集群性能和支持文件數隨節點數目增加，單一命名空間支持文件數達百億級。不僅如此，華為還實現了多集群數據融合互通，提升數據共享和分析效率，協議互通更是提升了分析效率30%，降低空間占用50%。“在一家金融客戶的應用測試中，基于相同的計算和存儲硬件配置，OceanStor存儲存算分離方案在大部分測試中，性能均超過了原生HDFS三副本，部分測試項的執行時間甚至降低了70%以上。”

【使用最簡】在實際操作運維方面，華為原生HDFS接口提供了更佳性能和使用體驗，例如完整HDFS語義100%兼容主流大數據組件，用戶無需安裝插件，安裝維護簡單。更重要的是，通過ViewFS或Hbase元數據網關方式可以實現新老共存，保護用戶已有投資，系統級數據冗余保護能夠支持4節點同時失效。崔玉祥特別強調，即使發生節點故障，華為OceanStor分布式存儲也能夠自動調整EC級別，確保新寫入數據可靠性不下降，與此同時，多節點并行重構，可實現2TB/小時數據恢復效率。

存算分離，助力千行百業大數據進階

自2019年以來，華為OceanStor分布式存儲解決方案已經被廣泛應用在電信、金融、政務、大型企業各個領域中。在本次直播活動中，崔玉祥專門分享了兩個有代表性的應用案例。

在江蘇，原有的政務系統大多采用的是煙囪化部署，數據孤島比比皆是。然而隨著數據量快速增長，江蘇決定基于華為存算分離解決方案開始打造分層解耦、高效共享的大數據平臺。華為幫助江蘇政務系統打造了一個統一大數據平臺，可以同時支撐多種業務，實現部門間數據快速共享，實現政務服務“最多跑一次”。在部署中，存算分離就大顯身手，加上計算資源和存儲資源云化，實現了資源靈活分配，業務上線時間縮短90% 。同時，借助OceanStor分布式存儲的彈性EC技術，將存儲利用率從33% 提升到91.6%，從容應對數據快速增長的挑戰。

在河北電信，已部署安裝了89臺存算一體的大數據集群，整體存儲空間使用率已超80%，存儲空間不足，經常需要通過刪除數據的方式釋放存儲空間。而且現有機房空間緊張，僅能容納135臺2U服務器，按原有存算一體方式擴容，機房空間無法滿足要求。對此，華為創新性地采用存算一體+存算分離共存的方案，擴容100個計算節點+35個存儲節點，使用Hadoop數據聯邦方案（ViewFS），既解決了新老共存問題，又實現了性能和容量的均衡擴展，相比原始方案提升60%可用容量。崔玉祥指出，存算分離方案無縫擴容，數據均衡讀寫，用戶既不需要升級現網大數據版本，也不需要遷移現網數據。

相信通過本次直播活動，及華為大咖帶來的精彩分享，行業用戶對于存算分離將會有更加深刻的認識，對于如何選擇合適自己的存算分離解決方案，也能做到心中有數了。

責任編輯：張燕妮來源：雷鋒網

人工智能機器學習技術

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器學習模型太大難部署？這里有 3 個解決方案

三大優勢令華為OceanStor分布式存儲更懂用戶

存算分離，助力千行百業大數據進階