如何用簡單的統計學問題“戲弄”聰明的數據科學家

作者：讀芯術 2019-11-26 11:19:40

大數據數據可視化

事實上，在互聯網領域，仍存爭議的嚴謹話題所剩無幾(因為有谷歌和維基百科)。

[[283693]]

“概率是生命的向導。”——列納德·蒙洛迪諾, 《醉漢的腳步：隨機性如何支配我們的生活》

首先，確保你想戲弄的人真的聰明。

其次，提的問題需直觀易懂。

事實上，在互聯網領域，仍存爭議的嚴謹話題所剩無幾(因為有谷歌和維基百科)。

但今天筆者要討論的是過去幾年在互聯網上引起激烈討論的話題。科學專家和數據科學家在這一問題上各有看法。

事不宜遲，現在開始吧。

[[283694]]

先來看問題

列納德·蒙洛迪諾是一名物理學家，他與斯蒂芬·霍金合著了《宏偉設計》一書。他的著作《醉漢的腳步：隨機性如何只陪我們的生活》還談到了隨機性，以及導致人們誤解隨機事件和隨機過程的認知偏見。

在介紹“樣本空間”概念的章節中，蒙洛迪諾使用了以下示例：

問題A：兒子還是女兒

我的朋友尼克有兩個孩子，他告訴你他至少有一個女兒，那么另一個孩子是女孩的概率是多少? 這似乎是一個簡單的問題，直接的回答是：已知其中一個是女孩，所以另一個孩子是女孩的幾率應該是50%，對嗎?

不對。

根據樣本空間理論，可以如下列出所有可能的樣本組合：

表中顯示，答案是1/3，即，33.3%。

蒙洛迪諾指出,這個問題令人困惑的部分是題目內容，如果題中指定第一個孩子為女孩，那么第二個孩子為女孩的概率是50%。

辯論

然而，另一位有識之士不同意蒙洛迪諾的理論。加里·史密斯(Gary Smith)是波莫納學院(Pomona College)的經濟學教授。他在耶魯大學獲得經濟學博士學位，后被聘為助理教授。他在《基本統計、回歸和計量經濟學》一書中引用了上述蒙洛迪諾采用的例子，認為這是對現實世界的典型誤解，并從另一角度提出了問題。

問題B：另一個孩子

你看到我的朋友尼克和他的女兒在街上散步。尼克告訴你他家里還有一個孩子，那么，另一個孩子是女孩的概率有多大?

這個問題看起來和蒙洛迪諾提出的問題十分相似，但加里卻給出了完全不同的答案與解析。

首先，他指出蒙洛迪諾“33.3%”的答案是錯誤的，然后他通過下表中的推算給出了自己的正確答案。

男孩用B表示，因此BB表示第一個孩子是男孩，同理，第二個孩子也是男孩。

女孩用G表示，BG表示第一個孩子是男孩，第二個是女孩。

該表顯示了400個家庭平均分配了4種孩子類型，即，每種類型為100。根據加里所證，可以得出以下推論：

已知事實

在100例的BB中，尼克應該總是和男孩散步。
在100例的GG中，尼克應該總是和女孩散步。
如果尼克有兒有女，則合理的假設是，他和男孩或女孩一起散步的概率是相同的。

分析

觀察表格的第一行。當尼克和一個女孩散步時，其中有100例(GG)表明另一位不在場的孩子也是女孩，而其他50+50例(BG&GB)則表明缺席的孩子是男孩。
當尼克和一個男孩散步時，也可以做出同樣的推論，因此，比較BB與BG+GB(100 vs 50+50)，也可以得出同樣的結論

結論

不管現在和尼克散步的是男孩還是女孩，另一個孩子是“男孩或女孩”概率保持不變(它們是自變量)因此答案是1/2，而不是1/3。

當然，還有一個更為直觀的解釋：你看到一個女孩，這是一個獨立的事件，對其他孩子的性別沒有影響。

如果你現在還沒有絲毫的困惑，那么你可能對這個問題還只停留在表面理解上(也可能你是個真正的天才，那便來看看下面的解釋是否與你的思維過程相同)

深入探討這個問題…

那么，加里和蒙洛迪諾，誰對誰錯?

實際上，他們都是對的，因為他們試圖解決的是兩個不同的問題。再看看以上的問題。

A：我的朋友尼克有兩個孩子，他告訴你他至少有一個女兒，那么另一個孩子是女孩的概率是多少?
B：你看到我的朋友尼克和他的女兒在街上散步。尼克告訴你他家里還有一個孩子，那么，另一個孩子是女孩的概率有多大?

兩個問題有什么不同嗎，“看見一個孩子是女孩”和“一個孩子是女孩”一樣嗎?

你認為呢?現在就是把聰明人弄糊涂的時候了。經濟學教授加里混淆了以上兩者的區別。

貝葉斯方程是解釋這個問題最簡單、最優雅的方法，盡管如此，筆者還是想從另一角度(使用全概率定律)來看待該問題。

“至少有一個女兒”和“看到一個女孩”不是一回事。這是關鍵。

這兩個前提在時間和空間維度上的差異可以表示為“全局關系vs.局部關系”。

1. 空間維度上的“全球關系 VS 社會關系”

“至少有一個女兒”并不代表你能看到那個女孩

如上圖所示，“至少有一個女兒”包含了“看到一個女孩”，而“看到一個女孩”所傳遞的信息更具概率描述。

2. 時間維度上的“全球關系 VS 本地關系”

“至少有一個女兒”是鳥瞰的統計結果角度。

“看見一個女孩”是人類觀察的角度。

下面是更直觀的描述，

統計是對樣本空間的總體描述。觀察是對平行空間中一種可能組合(所有可能發生的事情)的實際描述。在理解了這兩個問題之間的根本區別之后，可以得出結論：

“至少有一個女兒”是樣本空間中的一個概率問題。因此答案是1/3;
“看見一個女孩”是根據目前的觀察作出的未知推斷，這是一個貝葉斯統計計算。

因此，“看到一個女孩，問另一個孩子是女孩的概率”就等于“有兩個孩子，你看到其中一個是女孩，那么這個家庭有兩個女兒的概率是多少?” “猜性別”的話題到此結束。筆者想總結的是，即使是系統1(快速直觀的本能，以及由‘或快或慢思考’產生的情感大腦)也沒有很好的概率直覺。但是，我們總是可以通過增強對概率因果關系的認識，來提高自己解釋周圍環境中的動態和不確定性的能力。

總結

如何通過概率建立主觀假設與客觀結果之間的聯系?

為什么對真實世界的觀察會影響事件的偶然性概率? 將要發生的事情和已經發生的事情有什么根本的區別?

最后，如想找到一種回答這些問題的方法，或者想戲弄你的智能數據科學家朋友，可閱讀以下書籍：

The Drunkard’s Walk: How Randomness Rules Our Lives
EssentialStatistics, Regression, and Econometrics
The Book of Why: The New Science of Cause and Effect

責任編輯：武曉燕來源：讀芯術

統計數據互聯網

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何用簡單的統計學問題“戲弄”聰明的數據科學家