微軟建立R工具家族,將大數據帶入尋常百姓家
譯文【51CTO.com快譯】微軟此前對Revolution Analytics的收購引發了多方關注,這家企業專門負責利用開源統計編程語言R開發工具以解決各類大數據難題。將開源模型與商用工具相結合,Revolution Analytics推出了一系列方案以支持學術及個人用例,同時利用Hadoop等相關軟件通過大規模數據發掘潛在坐。在微軟的掌控下,其被重新命名為R Server,并成為連接內部環境與云環境間數據的橋梁。
最近兩年來,微軟公布了一系列對于其R工具家族的重要更新。R語言已經成為微軟數據戰略的重要組成部分,在Azure與SQL Server中受到支持,更重要的是立足于Azure機器學習服務將預處理數據交付至機器學習管道。其還成為微軟旗下的關鍵性跨平臺服務器產品,面向紅帽Linux與Suse Linux發布對應版本。
R語言在微軟生態系統中隨處可見
除了微軟之外,開源R語言在數據科學領域亦扮演著重要角色,并在學術環境下獲得大量支持。(根據IEEE統計,其人氣在全部編程語言中排名第五位。)事實上,我們并不需要掌握專業的統計學知識即可使用R,因為Comprehensive R Archive Network(簡稱CRAN,一套R應用公共庫)目前已經擁有超過9000套統計模塊及算法可供用戶選擇。
微軟的R版本是一套跨越桌面、內部服務器與云環境的解決方案。立足于本地,其提供一套免費R開發客戶端,另外微軟的付費旗艦級Visual Studio開發環境亦支持R語言。在內部設施領域,R Server運行在Windows與Linux系統,同時支持SQL Server,允許用戶訪問各類適用于自有數據的統計分析工具。其亦支持多種基于Hadoop與Spark的本地大數據服務,同時允許大家將R Server與HDInsight服務共同運行于Azure之上。
R是一款面向數據科學家的重要工具。盡管R語言相對簡單,但大家仍然需要具備深入的統計分析知識才能發揮其全部優勢。我個人的本科專業正是統計學,因此我發現R語言相當復雜,其中很多基本概念需要研究生水平的用戶才能確切理解。而且問題并不在于大家是否有能力編寫R代碼,而是能否理解得到的結果。
這可能也正是各類企業在處理大數據時面對的***問題:獲取您執行分析所需要的技能非常重要,但更重要的是必須利用同樣的技能解釋得到的結果。在這方面,R語言內置有繪圖工具能夠幫助大家對關鍵性統計指標進行可視化,從而簡化理解過程。
配合微軟R Server
免費微軟R Open能夠幫助您的分析團隊快速上手R,且無需任何前期服務器產品投入。這同樣是一款能夠快速嘗試新型分析算法并利用現有數據回答各類問題的實用工具。這套方案能夠在整體分析生命周期內發揮重要作用,從數據準備開始,而后轉向模型開發,最終將模型轉化為能夠內置于業務應用中的工具。
R語言還有另一種有趣的角色,即與基于GPU的機器學習工具進行協作。在這里,R用于協助訓練模型以準備其后續規模擴展。微軟已經在***的R Server版本中內置有其自主開發的機器學習算法,因此大家可以在將其上傳至本地大數據實例或者云端前進行測試。在最近的一次發布會上,微軟展示了這款方案的天文圖像處理能力——他們首先利用一套銀河星系資料庫對基于機器學習的分類器進行訓練,而后再將結果模型運行在云托管GPU之上。
R是一種輕量化語言,專門用于處理離散型數據樣本。這意味著其***可擴展性且能夠很好地應對數據并行問題。同一套R模型能夠運行在多臺服務器之上,因此快速處理大量數據變得非常簡單。大家只需要對數據進行適當打包,而后將其交付至R Server實例中即可。同樣的,同一組代碼亦可運行在不同實現方案內,因此針對本地數據源建立的模型亦可部署在SQL Server中并用于處理Hadoop數據湖。
R簡化可操作數據模型建立方式
因此,R能夠輕松實現可操作性。您的數據科學團隊能夠建立您所需要的模型,而開發者則可編寫應用并構建基礎設施以發揮這部分代碼的潛在優勢。準備就緒后,該模型將能夠快速部署甚至隨時替換為未來經過改進的其它模型。同樣的,我們亦可在不同應用內利用同一模型處理同一組數據。
作為一類常見模式,大家可以利用內部儀表板顯示與面向客戶及消費者的代碼相同的處理結果。大家隨后可利用此數據進行主動響應,例如提供延遲與改簽信息以解決模型提出可能因天氣造成的延誤問題。隨著數據量的增加,誤報與假警報將不斷減少,這意味著模型本身得到了改進。
在SQL Server中實現R支持***現實意義。首先,隨著微軟數據庫平臺開始成為內部數據與云數據間乃至用戶記錄系統與大數據工具之間的橋梁,在數據內納入細粒度分析工具早已成為一種必然。利用一款簡單的工具,我們可以利用R模型提供預處理結果,并將其用于SQL應用之內。數據庫開發者能夠配合數據分析團隊以實現這些模型,且不必在構建應用時使用任何新型技能。
微軟已經意識到,并非每家企業都需要或者有能力聘用數據科學家。對于各類常見分析問題,例如預測客戶流失或者在線商店中的欺詐活動,SQL Server能夠提供一系列預定義模板及對應模型。如此一來,用戶即可利用任何R兼容性IDE對其進行定制,并通過PowerShell腳本完成輕松部署。
原文標題:Microsoft’s R tools bring data science to the masses,原文作者:Simon Bisson
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】