做數據分析必須學R的4個理由
R 是一種靈活的編程語言,專為促進探索性數據分析、經典統計學測試和高級圖形學而設計。R 擁有豐富的、仍在不斷擴大的數據包庫,處于統計學、數據分析和數據挖掘發展的前沿。R 已證明自己是不斷成長的大數據領域的一個有用工具,并且已集成到多個商用包中,比如 IBM SPSS® 和 InfoSphere®,以及 Mathematica。
本文提供了一位統計學家Catherine Dalzell對 R 的價值的看法。
為什么選擇 R?
R 可以執行統計。您可以將它視為 SAS Analytics 等分析系統的競爭對手,更不用提 StatSoft STATISTICA 或 Minitab 等更簡單的包。政府、企業和制藥行業中許多專業統計學家和方法學家都將其全部職業生涯都投入到了 IBM SPSS 或 SAS 中,但卻沒有編寫過一行 R 代碼。所以從某種程度上講,學習和使用 R 的決定事關企業文化和您希望如何工作。我在統計咨詢實踐中使用了多種工具,但我的大部分工作都是在 R 中完成的。以下這些示例給出了我使用 R 的原因:
R 是一種強大的腳本語言。我最近被要求分析一個范圍研究的結果。研究人員檢查了 1,600 篇研究論文,并依據多個條件對它們的內容進行編碼,事實上,這些條件是大量具有多個選項和分叉的條件。它們的數據(曾經扁平化到一個 Microsoft® Excel® 電子表格上)包含 8,000 多列,其中大部分都是空的。研究人員希望統計不同類別和標題下的總數。R 是一種強大的腳本語言,能夠訪問類似 Perl 的正則表達式來處理文本。凌亂的數據需要一種編程語言資源,而且盡管 SAS 和 SPSS 提供了腳本語言來執行下拉菜單意外的任務,但 R 是作為一種編程語言編寫的,所以是一種更適合該用途的工具。
R 走在時代的前沿。統計學中的許多新發展最初都是以 R 包的形式出現的,然后才被引入到商業平臺中。我最近獲得了一項對患者回憶的醫療研究的數據。對于每位患者,我們擁有醫生建議的治療項目數量,以及患者實際記住的項目數量。自然模型是貝塔—二項分布。這從上世紀 50 年代就已知道,但將該模型與感興趣的變量相關聯的估算過程是最近才出現的。像這樣的數據通常由廣義估計方程式 (general estimating equations, GEE) 處理,但 GEE 方法是漸進的,而且假設抽樣范圍很廣。我想要一種具有貝塔—二項 R 的廣義線性模型。一個***的 R 包估算了這一模型:Ben Bolker 編寫的 betabinom。而 SPSS 沒有。
集成文檔發布。 R ***地集成了 LaTeX 文檔發布系統,這意味著來自 R 的統計輸出和圖形可嵌入到可供發布的文檔中。這不是所有人都用得上,但如果您希望便攜異步關于數據分析的書籍,或者只是不希望將結果復制到文字處理文檔,最短且***雅的路徑就是通過 R 和 LaTeX。
沒有成本。作為一個小型企業的所有者,我很喜歡 R 的免費特定。即使對于更大的企業,知道您能夠臨時調入某個人并立即讓他們坐在工作站旁使用***的分析軟件,也很不錯。無需擔憂預算。