Teradata孔宇華:大數據落地 從小做起
原創大數據無疑已經成為業界最熱點的話題之一,無論是傳統的企業,還是新興的互聯網企業,都在盯緊大數據這個巨大的市場。憑借著連續14年被Gartner評為數據倉庫領導者象限的Teradata,一直專注于數據倉庫和數據分析領域的創新,近日,Teradata天睿公司大中華區大數據事業部總監孔宇華向記者展現了Teradata的大數據技術實力以及在大數據分析方面的創新。
Teradata天睿公司大中華區大數據事業部總監孔宇華
目前,很多企業都在進行大數據的工作,有些簡單有些復雜。而孔宇華表示,大數據要從小做起,從一個應用、一個業務需求開始,通過不同的數據源、不同的數據分析工具,實現大數據的應用,最終幫助企業獲得數據的價值。很多企業收集非結構化數據,而后保存到一個平臺中,就認為將大數據做好了,其實不然。孔宇華認為,真正挖掘大數據的價值是要通過數據分析才能實現。Teradata想傳遞給客戶的理念是,大數據可以從小做起,不一定是需要100個PC服務器或者等到積累1PB的數據才會做好。
在大數據分析時,孔宇華建議企業,可以從業務部門的需求開始,制定目標和方向,而不一開始就去搭建平臺。當有了目標后,企業就知道需要的數據類型,而后加載少量數據,分析師可以做數據輪廓的分析,判斷數據是否適合,若不適合,可以加載企業數據進行調整,若適合,加載更多數據進行分析。孔宇華強調,數據的價值不在于存儲,而是在于分析,如果數據放進一個平臺,通過分析才可以將數據的價值釋放出來。
Aster:大數據分析的“瑞士軍刀”
Teradata Aster大數據探索平臺,可以匯集不同的數據源,包括結構化數據和非結構化數據,然后通過不同的分析方法,例如SQL分析、MapReduce、關聯分析、路徑分析、文本分析結合在一起,讓數據的價值變得更加容易把控。
孔宇華將Aster形象的比喻為大數據分析的“瑞士軍刀”,因為在Aster中,預置了很多分析算法,例如SQL、MapReduce、時間序列、地理空間、文字文本等。用戶使用相關分析算法工具時,不用挪動數據,而是可以在數據的原始位置進行訪問,調取不同的方法和角度來分析數據。
Teradata大數據解決方案——統一數據架構
大數據時代,速度代表一切,而Aster在分析層面通過四個步驟可以讓用戶快速從數據中獲得價值,即:數據獲取、數據準備、數據分析、數據展現。在數據獲取方面,Aster可以直接連接Hadoop、Teradata以及其他不同的數據倉庫,甚至是通過APIs連接微博。只要有APIs的平臺,Aster都可以直接連接從而進行分析,因此也就減少了數據加載的麻煩;其次,在數據準備方面,Aster提供接口和工具,可以將非結構化數據轉化為結構化,將結構化數據轉變成可分析的模型;第三,在數據分析方面,Aster提供了不同的分析方面給用戶使用;第四,在數據展現方面,Aster提供了可視化模塊,并且可以連接其他BI工具,此外Aster提供了一百多種函數,用于路徑分析、圖分析、數據轉換、統計分析等模塊。
Aster創新研發成果
去年,Teradata在發布最新的Aster大數據探索平臺時,也發布了Aster一些創新的研發成功,例如SNAP Framework、SQL Graph分析引擎和Aster文件存儲。
SMAP Framework
SNAP Framework是介于存儲系統和分析系統之間的框架,有統一的SQL接口進行訪問,支持多重分析引擎和文件存儲。此外,在過去的數據庫行存儲基礎上,增加了列存儲以及文件存儲。在分析層面,除了SQL和MapReduce,還增加了圖形分析引擎SQL-Graph,通過圖形分析引擎可以快速做出網絡數據圖形分析。SQL-Graph圖形引擎支持本機處理大規模分析圖表查詢以及預建圖形功能,并可用于客戶流失、產品關聯性、欺詐偵測以及推薦引擎分析等。Aster文件存儲可以提供不同存儲選項,用戶可以通過文件存儲保存全部數據,Aster文件存儲系統可以快速訪問并存儲PB級原始數據,提供存儲管理,并且使數據真正可用于預處理。
突破R語言限制
R是用于統計分析、繪圖的語言和操作環境,面向數據挖掘人員和數據科學家的一種開源統計語言及軟件。根據Rexer Analytics咨詢公司調查顯示,使用R語言的數據挖掘人員越來越多,70%的調查對象稱他們正在使用R語言。
在今年7月,Teradata通過放寬內存和處理能力限制條件,將Aster與R整合,將R的運算引擎以及索引整合到Aster中,在數據庫中運行R語言,高速處理海量數據。
將R語言并行處理還有不小的挑戰,例如R分散于各節點或各服務器,有利于行的獨立分析處理,但不利于分析功能所需要的所有數據。因此,Teradata采取的方法是,通過Aster MPP架構來運行開源R語言,實現高效并行分析。通過整合超過100種Aster Discovery Portfolio分析功能和5000多種R工具包,實現更強大的數據分析能力。
而Teradata Aster R也有四大優勢,首先是高效可靠的分析,通過Aster Discovery Portfolio分析功能,保證數據大規模并發分析;第二是高易用性,Aster R中大量預置并發分析工具包,用戶無需變成即可使用;第三高可延展性,并發運行任何開源R語言工具包,并且整合開源R語言工具包及Aster分析;第四是自助服務,通過Teradata搜索網絡可訪問多個平臺數據。
孔宇華認為,Aster與R的整合實現了強強組合,R中有很多不同的算法以及不同的分析函數展示的方法,而Aster提供了分布式的平臺,不僅擁有自己的函數,還可以接納R中的新算法,即可以通過SQL來使用Aster,也可以通過R來利用Aster平臺中的資源數據。
Hadoop與Aster的不同
Aster和Hadoop同樣是MPP架構,但在存儲、運算引擎以及界面方面都有較多的差異,這也決定兩者所擅長任務的差別。
Hadoop的底層是文件存儲的系統,雖然沒有MPP數據庫的智能存儲,但是可以更快地加載數據,其層是MapReduce做運算引擎。而Aster最多的不同在于底層的架構是數據庫的存儲,上層預裝有不同的運算引擎,包括SQL、MapReduce、文本分析、關聯分析、圖形分析,可以直接支持SQL的BI和加載工具。
此外,在做分析時,Aster中有很多分析算法,50%-60%會用到SQL,而在HANA上面做分析會相對較慢。孔宇華認為,在Aster上做大數據分析會更加方便,因為精通分析的人很多都是懂得SQL語句的,其次,在Aster上做分析的速度也會快很多。因此,Aster一直作為Teradata的數據探索和數據分析的平臺。
面對發展迅速的開源Hadoop解決方案,Teradata通過廣受客戶認可的統一數據架構實現積極對接。通過與HortonWorks合作,在Teradata統一數據架構中使用Hadoop中最實用的模塊進行數據收集和轉換等。此外,Teradata還提供了QueryGrid工具,運用QueryGrid,用戶可以從Teradata或Aster訪問其他平臺,做到整個數據架構的整合。孔宇華表示,Teradata不希望每一個數據平臺,例如Hadoop、數據倉庫、探索平臺和數據集市形成數據孤島。而QueryGrid可以將不同平臺的數據進行整合,更好地進行數據共享。
為了提升Teradata在Hadoop上的技術實力,進一步增強Teradata統一數據架構的功能和優勢,Teradata最近收購了Revelytix和Hadapt兩家公司的資產和人員。Revelytix擁有獨特的元數據管理技術,在企業級信息集成領域擁有專業水平,為Teradata帶來了全新的Hadoop數據管理和數據準備工具,可通過單一軟件解決方案達成元數據集成、數據沿襲(lineage)及數據整理(data wrangling)三大功能。而Hadapt可以在Hadoop上建立數據倉庫,幫助Teradata完善在Aster中的功能以及與Hadoop的結合,并且提升并推動Teradata統一數據架構不斷演進,幫助加速了Teradata對統一數據架構中Hadoop的整合。
大數據落地的“天時、地利、人和”
孔宇華認為,大數據創新過程是一個試錯的過程,而大數據落地要有三大要素,即技術平臺、人員技能和流程制度。
用戶需要選擇合適的大數據平臺,并且是要易于使用,能夠和現有平臺輕易結合;其次是人員,可以提高內部人員技能或者通過外部人員來補充技能,現在很多互聯網企業都在用Hadoop做大數據分析,而傳統企業要想將這批優秀人才收入囊中實屬不易,為此,Teradata就專門招攬Hadoop相關人才,幫助用戶更好的實施大數據;最后是流程,要結合大數據需求的敏捷項目管理方法,根據業務需求快速讓技術人員利用平臺來提升數據的價值。
目前,Teradata在全球已經擁有大量的客戶以及成功案例,而在中國也已經與超過10個行業的用戶進行合作,例如:電信、金融、保險、證券、航空、快遞、零售、電商等。孔宇華介紹,Teradata在北京擁有自己的大數據分析研發團隊,主要負責平臺的數據庫以及析函數的研發。此外,Teradata在中國還擁有大數據實施團隊與實施合作伙伴,幫助中國客戶實現大數據分析,最終幫助國內企業完成轉型成數據驅動型企業的愿景。