R語言如何增強數據科學?
當今數據科學領域***的工具之一是開源編程語言R語言,它廣泛的應用于各個領域。簡單來說,R語言就是一種數據語言。過去的20年間,全世界的統計學家已經為開源語言R語言做出了許多創新性的貢獻。這些貢獻意味著,R語言開發者們能夠找到一種方法來接觸到那些邊緣學科運算規則的資料庫(不再受統計學知識的限制),從而能夠很迅速地開發出智能分析應用程序。正是如此,R語言變得越來越好,非常受用戶歡迎,應用的行業也更加廣泛。
我們已經可以看到R語言的強大功能既適用于初創企業,也可以在傳統企業中發揮作用:比如,挪威的e-smart語言智能系統已經在云端配置了基于R語言的預測模型,這一功能的用途是可通過智能電表中的數據來幫助優化國家電網;美國世紀投資公司正是使用R語言作為量化投資平臺的基礎;國家氣象局在河流預報中心也使用R語言用來幫助預測洪水;再比如,房地產分析公司TRulia使用R語言幫助預測房價;除此之外,R語言還作為Twitter網站大數據工具箱的一部分,用于監測網站的用戶體驗。類似的例子數不勝數,數量也在增加,足以看出R語言的強大功能及廣泛的應用。
盡管R語言已經廣泛地被使用,但實際上,我們才剛剛開始意識到當今高級統計平臺的力量。在未來的5至10年內,幾乎在每個應用軟件及程序、互聯網設備和智能手機中都可以看到機器學習和智能分析的影子。面對如此之多的挑戰亟需解決,業界必須確保R語言作為正確的工具交到正確的人手中,這些人致力于尋找那些浩瀚而珍貴的數據庫的答案。
R語言基金會一直致力于開拓市場,用以支持R語言的發展并且擴大使用R語言的客戶群,在此同時,還有更多的任務需要完成,這樣才能讓全世界的開發人員在企業中充分利用R語言,使其功能得到***程度的利用。目前為止,得到了業界支持之后,主要在三方面能夠幫助加快R語言的發展進度:
1.測試:強大的軟件測試方法和基礎設施,更有助于開發R語言的新版本語言包,毋庸置疑,這對R語言社區將極其有利。如果能夠切實做到保證候選發布版的高品質,并且能夠在后續的發布版本也保持兼容性,那么在企業內部應用中將會大大提高R語言代碼的可重復性和可靠性;如果這樣,那么R語言的應用將會更加方便。
2.可擴展性:目前而言,R語言功能的實現普遍是內存受限的。然而非常戲劇性的是,當今很多時候我們正在分析的數據集卻全都比計算機內存更大。只要努力實現R語言的功能,充分利用這一既強大又科學的語言,就能夠使企業更方便更輕松地處理數據任務(尤其是與大型數據集有關時)。
3.面向未來:R語言需要不斷創新,這樣才能夠確保它在當前的和未來的分析環境中都可以繼續發揮作用,這些分析環境包括比如Hadoop、Spark以及下一代的數據庫。這需要持續不斷地接受教育,并且與全世界各地的R語言組織和數據開發人員通力合作才能完成,這需要我們我們共同努力,才能使R變得更好。
R語言的統計編程部分不僅簡潔優美而且具有良好的靈活性,這使得它已經在金融、醫療、社會科學、公共事業領域都取得了重大突破。一直以來都有各方面的支持伴隨著它的發展,因此我們期待在這個嶄新的聯結密切的世界中,可以看到數據科學和統計學應用程序中取得革命性進步。
有一個R語言聯盟(微軟公司是其中的一個創始成員),聯盟最近公布的目標是:在一個開放的開發環境中領導R語言的未來道路。R語言聯盟將會幫助R語言以更快速的步伐造福它的每一位愛好者和使用者。R語言聯盟將持續不斷的努力,為數據科學的發展創造沃土。在高科技行業的強有力支持下,不管是現在還是未來,R語言基金會和R語言聯盟都將繼續投入精力,力爭使R語言成為更棒的語言。