大數據除了預測還能干啥?
今天隨便聊聊一個Susan在2017年發在Science上文章:Beyond prediction: Using big data for policy problems。Susan Athey是美國著名的經濟學家,現在是斯坦福大學商學院的教授。在平臺和大數據方面的研究方面,她大概是經濟學界林朝英這樣的角色。值得一提的是她老公Guido Imbens在計量領域的名聲更加蓋過了Susan在商學領域的名聲,大概算是王重陽。
之所以提到這篇論文是因為里面提到了一些非常有趣的關于大數據未來在產業經濟領域發展方向的問題。眾所周知大數據和機器學習技術的出現大幅提高了我們運用數據來預測的能力,比如說一個和我們生活最息息相關的方面就是許多平臺軟件會通過大數據學習來定向推送內容(每個人打開百度搜索相同的關鍵詞,得到的結果和排序可能都是完全不同的)。
那么對于社會科學工作者而言,一個自然而然的問題就是:我們未來的發展方向有哪些是可以和大數據方法相契合的?換而言之,社會科學工作者,或者企業領導者是不是可以直接拿來主義,運用大數據來指定相關政策,優化社會福利或者公司運營呢?
蘇三(Susan)在她的文章里面提到了現實生活中大數據應用的三個方面:
醫療
醫療方面一個使用大數據預測的例子是:醫生希望通過大數據來預測符合哪些條件的病人更適合來做髖關節置換手術。所以他們使用機器學習來預測哪些手術候選人可能在手術后的一年之內死亡,通過手術的風險率來確定病人是否適合做這樣的置換手術。他們的說法非常具有經濟學意義:一個人只有通過手術能夠活得很長的時候,做手術才更有意義;如果手術之后不久就死了,還要為手術承受額外的痛苦,那可能只是一種金錢上的浪費和徒勞。
其實這是一個非常具有現實意義的問題,比如說面對流行病我們是不是也可以使用大數據來對不同程度的感染者采取不同的治療手段,從而使得有限資源可以最合理化的分配。
然而一個重要的問題在于,我們是不是可以簡單地通過這樣的風險分類的方式來決定手術的優先性?同時簡單基于關聯性的機器學習結果也并無法回答更深層的問題,比如說患者之間可能存在我們看不到的異質性問題。就目前而言我們可能并無法通過模型的預測結果來直接判斷是否某些病人可能比另一些病人更有可能引發并發癥。
回到這次的肺炎事件來看,我們如果僅僅從個體治療效果角度進行判斷通過大數據建立模型來決定有效的治療手段和方案,會不會忽略了個體的傳播性?比如說有一些病患可能從個體角度上來說治療的優先級并不是最高,因為他們身強體壯。但是可能這些病患恰好是極具傳播力的人,反而應該被優先處理。更本質地,到底這種根據存活率來分配稀缺資源的方式是不是就是我們人類社會所追求的最優方式?
城市發展
公共建設和城市發展是大數據方法運用的另一個重要維度。比如說一個很現實的問題是如果我們要在城市里面安排警察,監察員,那么根據現有的人力物力,我們怎么樣分配調度才是最優的。這是一個很現實的問題最新的研究成果就有顯示,如果在波士頓地區的參觀重新按照大數據結果安排衛生監察員的話,可能會相比現有的分配方式提高30~50%的監察效率。
蘇三提出這看起來很美,但是相對而言我們也要知道機器學習的方法在預測效率可能會提高30~50%的同時,也忽略了兩個重要的因素。要使得效率提高成立的前提條件是:
- 人類的行為不會因為資源的重新分配而變動;
- 即便這樣是真的,重新置換分配資源的成本也必須低于收益,不然的話政府將會缺少動力去優化現有系統。
大數據經常也會被用于計算城市的犯罪率,從而合理規劃警員的配置和分布。可是另一方面我們需要擔心的是一旦這種警員重新配置分布之后,很顯然也會反過來影響到潛在犯案者的行為以及犯案地點的選擇,最后可能會使得重新分配警力只是在做無用功。當然這一切因為從來沒有發生過,自然而然也不可能直接被“大數據”所預測。
企業決策
最后要說的例子是企業的決策,特別是平臺類的企業。2015年的時候Blake, Tadelis, Nosko有一篇著名的論文,發在了經濟學的頂級刊物Econometrica上。經濟學家幫助Ebay做了一個研究,主要是看Ebay通過付費搜索廣告來吸引消費者這樣的策略到底是否實際有效。之所以做這樣的研究是因為在經濟學家介入之前,Ebay自己的團隊已經做過這樣的研究,搜索點擊和購買行為本身相互關聯。Ebay通過機器學習的方法得到了非常驚人的結果,他們發現通過投資搜索廣告獲得的點擊繼而造成的銷售利潤大概是成本的1400%!
這樣的結果太過驚人,以至于Ebay自己都覺得不太可信,因為如果是真的話,那豈不是意味著只要拼命投資廣告讓更多的人通過廣告點擊進入Ebay就可以發大財?那運營企業也太容易了一些了吧。
經濟學家們發現事實上造成這樣的機器學習結果的重要原因是大部分點擊廣告人的確會在點擊廣告之后購買Ebay的產品,但是這可能本身就是一種因果錯連。主要并不是因為點擊所以才想買,而是想買所以才會點擊。在矯正了這樣的偏誤之后,他們重新估計了廣告投入帶來的收益,發現事實上廣告投入帶來的平均回報是-69%而不是1400%。