Python學完工作不好找?看看數據分析可視化都可以做什么
大概一年多以前,和幾個小伙伴均認同一個趨勢:覺得通過技術手段獲取網上越來越豐富的數據,并基于這些數據做分析及可視化,必能產生有價值的結果,幫助大家改善生活。(大數據被叫爛了,所以用低調的方式來解釋我們的初心)
第一步:開工,為基金服務
恰巧和幾個基金的朋友(包括對沖基金和VC/PE基金)聊到這個趨勢,他們非常認同這個觀點并愿意付費,認為可以用這種實時且定量的方式來跟蹤一些上市公司或者私有公司旗下的產品,來確定誰是有價值的投資目標。于是立馬獲得訂單并促使我們開干,因為考慮到Python靈活及各類爬蟲庫的優勢,最終選用Python來做數據獲取的主體架構;也有新潮的小伙伴使用Go,同時用Go搭建了一個很酷的框架來制造分布式的智能爬蟲,應對各種反爬策略。抓取數據主要來自于如下網站:
- 各應用商店:獲取App的下載量及評論
- 大眾點評及美團網:餐飲及各類線下門店消費及評價情況
- 汽車之家及易車:汽車的相關數據
- 58及搜房;房屋租售數據
- 新浪微博:用戶的各種發言及輿論
- 財經數據:雪球及各類財經網站
- 宏觀數據網站:天氣、12306火車、機票網站
最初的產品純粹是為基金服務。下圖是在各個維度找出最有價值的App,各種量級范圍內在30天/7天增長最快及評價最好榜單。(順便吹一下牛,我們這個榜單很早就發現小紅書App的快速增長趨勢以及在年輕人中的極佳口碑)

下圖是對某個App的下載量跟蹤,幫著基金做盡職調查。

下圖是某上市公司的門店變化情況,幫著基金跟蹤TA的增長情況。

下圖是國內各個機場的實時流量,幫著基金跟蹤國內出行的實時情況,或許能從一個側面反映經濟是否正在走入下行通道。

第二步:擴展思路,開源和分享
為基金服務,雖然給錢爽快,但是也讓方向越走越窄。首先,基金希望信息是獨享的和封閉的,投資就是投資人之間的零和博弈,公開的信息就迅速會一錢不值,基金最在乎的就是信息的獨享及提前量,所以各個基金都希望我們呈現的數據及分析結果能夠獨家。這樣迅速讓我們的方向收窄以及工作的趣味性降低,其次,畢竟對于基金而言,能分析的投資對象及方向是非常有限的。而且現階段,大部分對沖基金里面的分析員的數據分析能力其實很弱:這些分析員里面能用VBA或者能在Excel里面使用矩陣及向量乘法的人幾乎可以驚為天人;能寫offset函數的人,就應該直接提拔了;大部分人停留在一個個數網頁找數據的階段。所以和他們起來十分費勁,除了提供一些粗暴的數據,并不能產生太有價值的結果。
還共享了一些和青年生活最相關的分析及數據。下圖是深圳市早晨高峰時段某類人群出行的熱點圖,通過熱點分析,試圖找出這類人群的居住和上班的聚集區。

下圖反映了在各時間段在深圳科技園附近下車的人群密度。

寫這些報告,團隊沒有掙到一分錢,但是整個成就感和滿意度大大上升。同時,在Python及各種技術上的積累也提高頗多,數據量級的積累也越發豐富,數據相關的各項技術也在不斷加強。同時,順勢擴大了數據源:京東、淘寶等數據也納入囊中。
第三步:擴展客戶
在知乎上寫這些報告,除了收獲知名度,還收獲意外之喜,一些知名品牌的消費品公司、汽車公司及互聯網公司,主動找我們做一些數據抓取及分析。整個團隊沒有一個BD,也從來不請客戶吃飯。
于是我們順勢做了如下的網站以及一個成熟的Dashboard框架(開發數據監控的Dashboard超有效率),目前主要監控和分析母嬰、白酒、汽車及房地產四大行業,都是一些愿意花錢進行深度了解用戶以及行業趨勢的公司。收入自動上門,很開心!

下圖是抓取汽車之家的數據,做出BBA(奔馳寶馬奧迪)這三大豪華品牌的交叉關注度,幫助品牌及4A公司了解他們用戶的忠誠度以及品牌之間遷移的難度。

下圖是抓取新浪微博的數據,分析廣東白酒的消費場所

下圖是抓取新浪微博的數據,分析廣東白酒和各類食品的相關度。
