如何破解大數據的三大困境 直達成果?
原創【51CTO.com原創稿件】數字經濟時代,越來越多的企業認識到數據對企業業務發展的重要作用,只有更快速、全面、有效地理解數據,才能有效的展開競爭,面向企業數據進行敏捷分析成為核心需求,而介于業務和IT人之間的數據科學家也是炙手可熱,成了DT時代的寵兒。
來自第三方的調查報告顯示,分析技術正在成長為價值2000億美元的產業,而且還在永無休止地增長,這項結果無疑為廣大分析公司注入了一針強心劑。然而,在調查樣本中,74%的企業決策者表示分析技術過于復雜,42%的受訪者認為企業員工難以使用或理解分析技術,更有高達79%的受訪者表示他們需要獲得更多企業數據,才能高效完成任務。
由此可見,現有的分析產品在使用過程中仍然存在諸多問題,該如何改進呢?
在今年10月中旬于拉斯維加斯舉辦的“Teradata全球用戶大會”上,Teradata發布了全新平臺“Teradata Vantage”,提供描述性、預測性與指示性分析、自主性決策、機器學習、可視化工具等廣泛功能,可部署在公有云、本地環境、優化型或通用基礎設施,或以“即服務”的方式提供。
Vantage是優勢之意,這也體現了Teradata繼續為客戶改善和調優產品的信心,數據智能已經到了“超越分析,直達成果”的時代。
Teradata天睿公司大中華區總裁辛兒倫(Aaron HSIN)
“全世界的市場上還沒有第二家數據分析公司可以做到端到端的數據分析能力。” Teradata天睿公司大中華區總裁辛兒倫在接受51CTO記者采訪時表示:“Teradata品牌的核心目標是無處不在的數據智能,在任何的基礎架構中隨時提供所有你想要的數據,所有你能獲得到的數據,提供重要客戶的業務分析成果。” 他表示,只要客戶相信數據能夠改變世界,Teradata就能與客戶共同面對機遇與挑戰,幫助其實現想要達成的目標。
辛兒倫強調,在Teradata大中華區的一千多名員工中,有70%以上的員工來自咨詢服務團隊,積累和匯集了大量數據分析領域的方法論、行業模型、數據模型以及技術專家,這是助力客戶項目成功,達到有效業務成果的基石。
大數據分析有兩個階段:一是完成數據的存儲,解決如何把海量的、非結構化的數據存儲下來的問題;第二個階段是敏捷地分析,也就是在任何時間、用任何工具、用各種分析方法得出想要的分析結果。從成本的角度來看,一階段已經完成,數據存儲的問題已經解決,而敏捷則上升為企業客戶的核心需求。
大數據平臺的三大難題
Teradata經過大量的市場和客戶調研發現,自2010年至今,現有的大數據平臺普遍面臨三大問題:
頭一大問題:分析語言和分析工具過于分散、凌亂。當前的分析語言和分析工具十分廣泛,客戶為了適應這樣的變化,往往要為了不同的工具去臨時搭建數據平臺,例如將數據從數據平臺中抽取提取出來,變成SAS的格式或R的格式,才能做分析。
第二大問題:隨著數據平臺的增多,平臺之間頻繁的數據交換帶來的數據質量問題。由于分析語言和分析工具的分散,數據平臺從早期的數據倉庫、數據集市,到數據探索平臺、Spark平臺、機器學習平臺,每一個分析需求誕生一個平臺,形成了一個個孤島,各平臺之間頻繁的數據交換嚴重影響數據質量,直接影響分析結果的準確性。
第三大問題:對于CTO或IT架構師而言,誰也不能確定未來的技術演進方向。架構師在搭建IT架構時會考慮如何保持彈性、如何進行演進而不被顛覆。例如,從X86一體機架構,到分布式的云架構,從公有云到混合云架構,數次的架構更迭衍生出諸多問題。在什么樣的環境下進行穩定和可持續發展的IT部署架構,能夠實現敏捷分析,且能應用各種分析工具進行彈性部署和統一管理,消除數據孤島,是所有CTO和架構師共同關注的問題。
Teradata Vantage的破解之道
Teradata Vantage不光是一款產品,也是一個體系。為了敏捷地給客戶提供分析工具和方法,讓客戶數據產生的價值更勝一籌,Vantage一詞應運而生。實際上,Teradata Vantage是統一的整合的分析環境,不用擔心會形成數據孤島。同時,它支持幾乎所有主流的分析工具和語言,并且打通了所有數據類型的接口,靈活支持多種數據類型、格式以及異構數據存儲。此外,Vantage支持任意購買方式和在任意環境部署,同時支持自由部署和軟件許可遷移。
Teradata天睿公司大中華區解決方案總監姜欣(Geoffrey Jiang)
Teradata天睿公司大中華區解決方案總監姜欣表示:Teradata Vantage降低了客戶使用數據分析平臺的難度,讓使用者能夠把更多的時間用于分析問題本身,而不是花時間準備數據或學習分析工具的使用方法,從而大幅提高使用效率,更加敏捷。即使是業務人員也可以在Vantage平臺上簡便地實現一些小功能,并從中得到自己想要的數據。
從架構來看,Teradata Vantage主要分為四層:數據存儲、分析引擎、分析語言和分析工具。底層是Vantage的數據存儲格式,目前支持Teradata、AWS S3的數據存儲格式,將來會支持更多。分析引擎層,通過高速連接器把不同的引擎連接起來,目前發布的是SQL+引擎,機器學習引擎和圖分析引擎。語言方面,用戶將能夠在SQL、Python、R、SAS等最常見分析語言和分析工具以及廣泛的商業智能與可視化工具之間隨意切換,并使用SAS、Jupyter、RStudio等高級功能。該平臺還提供JSON、BSON、AVRO、CSV、XML等多結構數據存儲與分析能力。
姜欣強調,SQL+不是簡單的標準SQL,而是基于SQL擴展了很多關于分析方面的功能和函數,特別是4D分析,它是面向物聯網數據,通過時序、時間、位置、空間等方面的數據進行混合分析。4D分析是邊緣計算里的重要內容,可以在時間和空間兩個變量上進行任意變換。
QueryGrid
他還著重介紹了Teradata Vantage平臺的核心組件——QueryGrid。QueryGrid 要完成兩個任務,一是實現不同版本的數據平臺(如Hadoop平臺、機器學習平臺等)跟不同數據存儲之間的連接;二是通過QueryGrid將不同的分析引擎(如SQL+、TensorFlow、Spark等引擎)集成,無縫連接和打通。Vantage通過QueryGrid更大限度地減少數據移動和重復,隨時隨地處理數據,并運用Push-Down處理技術,實現可擴展的數據傳遞。
Teradata Vantage當前版本
Teradata Vantage未來演進方向
“數據分析有很多是跨行業共性的,很多方法論、架構和模型都是可以復用的。” 辛兒倫如是說。據悉,沃爾沃汽車將Teradata Vantage用于無人駕駛汽車和行車系統的研發,通過Vantage上集成的機器學習和圖分析引擎,實現車輛運行過程中對街景、路況、路上的行人等的機器學習,以及濕滑路面防滑系統的預知和啟動,從而提高車輛的安全性,提升服務水平。除此之外,西門子醫療將Vantage平臺運用于醫療設備的預測性維修。馬士基通過對其全球貨運物流的冷凍貨柜進行燃油經濟優化和冷藏庫溫度調控,可以大幅降低能耗,節約大量經濟成本。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】