拋磚引玉:像數據科學家那樣思考
這個題目在素材庫中已經放了很久了,久久不敢動筆去寫。每次打好腹稿,列好提綱,卻不知該不該寫。之所以猶豫,原因是知道這個話題未來肯定會火。所以現在寫起來,需要謹慎,免得貽笑后人。
像經濟學家那樣思考,是常常被人提起的。究其原因,是因為經濟學在社會科學領域有一統天下的趨勢,其研究范式被社會學,心理學,甚至歷史性借鑒,經濟學的思維方式,也可用到日常生活中,從而使得人們想變得想經濟學家那樣思考問題。類似的,數據科學這幾年也是火的不能再火了,過不了幾年,每家公司都會考慮增設Cheif AI office,那么如何像個數據科學家那樣思考,也會成為熱門話題的。
不愿意寫這個題目的第二個原因,是在于這個題木下可以寫的思維方式真的很多,如果無法分清楚主次,那么會變成名詞的羅列。然而“少則得,多則惑”,少年時看倚天小說的***章,寫小郭襄炫技式的展示十種不同的武功,但每一種都沒有精通,只覺得過癮。如今看來,金庸在用暗筆預示著未來峨嵋武功終究不及武當少林。思考方式不過是方法論,不追求掌握的多,但追求收發自如。因此我也釋懷了,這里的總結也不必追求全面了。本文中任何的一種思維方式,雖然只是一招一式,不成體系,但任何一招用好,都可以提升自己的思維的敏銳性。
所以這篇文章我更希望是一個拋磚引玉的起點,吸引更多的人來思考該如何讓數據科學的思維方式民主化,希望能開啟相關的討論。
下面開始正文。先放幾張圖,讓各位猜猜每張圖所代表的思維方法,算熱身。
***個圖對應的是抽象。相比于匯編語言,C算是一種抽象;相比于C,python則更是一種抽象。每一種抽象,都提供了一種更快更易上手的高級工具。掌握抽象思維,意味著你能直接就站在巨人的肩膀上,直接站在前人的基礎上進行自己的創造。學會使用新出現的高級工具,還意味著你能趕上時代進步帶來的紅利,不必思考已經被科技進步的紅利已解決的問題。
抽象的思維方式,意味著你能擺脫細節,整合不同維度和場景的觀察。然而數據思維不等于統計,還需要找出規律,給出解釋。對數據的解讀,需要你具有要提到的第二種思維方式,即取舍。
有明處就有暗處,有得就有失。而數據能讓我們更清楚的看到這些暗處的得失,正是因為這些得失,我們才需要數據,這個不會被我們的情感和主觀好惡影響的參謀來幫我們做決策。然而只有意識到任何數據在解讀時都會包含取舍,我們才能更全面的解讀數據。也只有記住在面臨不同質事物的抉擇時記得需要搬出數據,才能避免只看到明處的當下的得,而沒有看到未來的失。而在需要說服別人去做出取舍時,也需用可視化的數據來量化損益。
第三幅圖說的是隨機。數據思維不試圖追根究底問出具體的因果,而是承認隨機的力量,然后試圖通過重新類似的現象來預測未來。蒙特卡羅就是這樣一種計算方式,而有一類算法,則是基于隨機數的。隨機性的思維意味著接受不確定性,這方面有很多文章可以參考。例如 隨機生存的智慧無常世界的生存圣經 (上)無常世界的生存圣經 (下)。
***一張圖說的你可能會覺得是網絡。但這里的關鍵詞是結構。不同的網絡有著相同的結構,這是可以在不同領域跨界的基礎。結構的改變往往關聯著物理上說的相變。識別不同的結構,在數據科學里是找到“隱變量”,是通過調節網絡的連接方式來在進行深度學習。而了解一個網絡的***方式,也是按結構對其分類。上圖的6種網絡結構,每一種會對應不同的行為規律,看清楚了網絡的結構的變化,就能找到變化的拐點何時到來。
***再說一遍,一個拋磚引玉的起點,歡迎大家在留言區討論。而在鐵哥的書中,會對這個話題給出進一步的探討。