統計學家怎么看數據分析
在我研究生階段的統計學學習中,最重要的收獲并不是一些具體的統計測試或者取樣分析,而是一些不太正式的知識。這些知識在工作或者僅僅是娛樂的分析問題的時候給我帶了非常重要的幫助:
一、注意細節
在大多數時候,這些細小的信息并不會對數據分析的結果產生重要的影響。一次課堂上,我的教授給我們用投影展示了一張圖表,那是一張散點圖并伴有一條流暢的適配線條。他問我們看到了什么。顯然,在開始這里有一個上升的趨勢。中間有一定下降,接下來又有一定反彈。但是我忽略了最開始的那個小波動,這就是我們不足的地方。
所以這里的關鍵就是:模式和趨勢是重要的,但是那些離群值、缺失點和一些異常也同樣重要。
二、看到全局
當然,在一個大數據集中抓住獨立的數據點或者細節不放也是不合適的。大局觀會讓你看到數據的整體趨勢,它會幫助你分析甚至預測數據的變化。
三、不要有預判
要盡可能客觀的觀察數據,當然這并不是說在看到一組數據之前一點期待也沒有,但是不要讓自己最初的預判影響了觀察的結果。因為如果你一開始就試圖尋找一些模式,那你可能會陷入這種模式中而犧牲掉準確的結果。
四、看到數據之外的東西
上下文,上下文和上下文,重要的事情要說三遍。這些關系有時可能來自于元數據中,有時可能來自于其他的數據集。
你需要更多的了解這個數據是如何被收集的,它從哪里來,如何發生,還有它發生在什么時候。獲得更多的信息你對于結果就會更有自信。
保持懷疑
***,這是我重要的收獲:始終保持懷疑。當你看到一個圖中的異常時,你應該好奇它為什么會出現在那里;如果你發現了一些相關關系,你應該思考它是否有一些意義。如果這些發現有意義,那很好,如果沒有那就需要繼續深入去發現。
數字包含著大量的信息,但需要記住的是,當人參與到數據當時,錯誤幾乎是不可避免的。