MongoDB迎來原生數據分析功能
譯文【51CTO經典譯文】為了讓大家更輕松地將分析機制引入自己的大數據存儲體系當中,Pentaho公司今天公布了其業務分析與數據集成平臺的最新版本已經正式進入通用階段。
Pentaho 5.1版本的設計目的在于為“數據與分析兩個獨立領域”架起一道往來的橋梁,從而為全部Pentaho用戶——從開發人員到數據科學家再到商務分析師——提供支持。Pentaho 5.1為直接為MongoDB數據存儲體系帶來了運行無需使用代碼的分析機制,并利用新的數據科學工具包作為相關專業人士的“個人助手”。除此之外,新版本還能夠全面支持用于進行資源管理的Apache Hadoop 2.0 YARN架構。
“Pentaho 5.1當中的新能力可以支持我們下一步的戰略規劃,包括難度最高的大數據分析速度提升、簡化以及訪問性改進等等,”Pentaho公司執行副總裁兼首席產品官Christopher Dziekan指出。“隨著5.1版本的發布,Pentaho得以進一步實現大規模響應分析功能,這不僅能夠滿足以數據驅動為目標的大型企業的實際需求、同時也能為中小型企業以及新興廠商帶來能夠與傳統巨頭進行競爭的公平環境——即使沒有專業開發團隊,大家也完全可以在大數據舞臺上一試身手。”
Pentaho平臺的前續版本已經允許使用者將其與MongoDB相集成,將后者作為數據源并針對MongoDB數據提供報告。現在Pentaho新版本則更進一步,直接為MongoDB中的數據帶來原生分析機制,而且無需涉及電子傳輸層處理或者進行編碼操作。MongoDB數據集能夠在源頭處直接交付分析,從而降低了獲取結論的時間消耗以及對用戶專業技能的要求。
Dziekan指出,醫療成本解決方案供應商MultiPlan公司目前已經擁有約90萬家醫療供應商作為其合作伙伴,每年需要處理的事務超過4000萬項。Dziekan指出,MultiPlan公司從自己的門戶網站中獲取JSON源文件并將其保存在MongoDB當中。他們使用的正是Pentaho Analyzer插件,這是一套拖拽操作式OLAP查看工具,以MongoDB為基礎、旨在將數據進行拆分細化并創建起相關儀表板與報告。
“傳統RDBMS(即關系型數據庫管理系統)分析機制往往非常復雜,而且在處理半或者非結構化數據時顯得詭異而笨拙,”MultiPlan公司首席軟件架構工程師Chris Palm表示。“Pentaho 5.1平臺能夠滿足這類市場需求,允許用戶直接在MongoDB內部實現數據分析工作。我們已經見識到了新版本帶來的更為準確的分析結果,而且這一切不再受到無法處理全部數據的嚴重局限。我們現在可以將更為完整的數據集納入分析范疇,從而讓我們的記錄系統獲得更加全面的分析結論。”
Pentaho公司還在Pentaho 5.1當中納入了新的數據科學工具包,從而讓使用者更輕松地完成數據分析任務,并幫助數據科學家快速建立起360度全方位客戶視角與數據源混合機制,其中包括社交網絡與MongoDB。這套工具包為Pentaho數據集成(簡稱PDI)功能新增了R腳本執行器,允許用戶將R腳本作為PDI轉換流程的組成部分,從而大大簡化了數據準備所面臨的負擔。工具包還引入了Weka評分工具,允許用戶在其中使用分類、聚類以及回歸模型。除此之外,它還加入了Weka預測,幫助用戶利用預測模型在Weka中創建出時間序列分析以及預測環境。
“數據科學家相當于獲得了自己的個人助手,”Dziekan表示。“這套數據科學工具包當中提供大量可直接使用而且為數據科學家們所熟悉的工具,我們現在已經能夠操作它們為自己服務。”
Pentaho 5.1平臺還加入了完整的YARN集成能力,從而讓開發人員更輕松地利用Pentaho數據集成功能充分發揮Hadoop的強大計算能力,同時無需編寫復雜的MapReduce代碼。Dziekan表示,YARN支持能力的加入讓PDI作業能夠以彈性方式使用Hadoop資源,根據數據規模與處理要求的變化自由進行擴展與收縮。他同時指出,對YARN高級資源管理功能的支持能夠將多種工作負載場景加以融合,從而帶來用戶渴望已久的持續性數據轉換與分析機制。
原文鏈接:
http://www.cio.com/article/2375115/business-intelligence/native-data-analysis-comes-to-mongodb.html
原文標題:Native Data Analysis Comes to MongoDB