特朗普獲勝,大數據技術失利?并非如此
譯文【51CTO.com快譯】 民意調查結果再次印證一句老話:“進來的是垃圾,出去的也一定是垃圾”。
通過大選前的***幾輪民意調查,大多數人認定共和黨人唐納德·特朗普將敗給民主黨上希拉里·克林頓。
然而事實并非如此。這次失敗的預測,可能會令人們對于部分熱門技術領域產生疑慮,包括大數據分析與客戶關系管理。
不能言之過早,部分數據專家指出。他們同時表示,問題在于民意調查及FiveThirtyEight等天氣預報方還需要更多關注數據收集而非數據處理。
數據分析機制在奧克蘭競技隊的錢球模型中運作良好,但棒球數據統計與選舉投票有著巨大差異,CRM分析師兼Beagle Research集團創始人Denis Pombriant表示。統計學家已經收集到“一個多世紀周期內極為可靠的”棒球數據,而民意調查數據目前尚不完善,他解釋稱。
一切數據分析工作都取決于“良好、明確且有效的數據,正因為如此,其目前僅在棒球領域擁有良好的指導效果,”他在上周三的研究報告中指出。“如果不對數據加以進行整理,那么其將再次印證IT領域的一句老話,‘進來的是垃圾,出去的也一定是垃圾。’”
民意調查其實并不屬于真正的大數據,企業戰略集團資深分析師Nik Rouda補充稱。“民意調查數據在樣本規模上不成問題,但在數據總量、數據類別以及歷史嘗試等層面尚不符合實時分析、機器學習以及其它先進分析機制的要求,”他通過郵件表示。“在我看來,采用更多大數據技術應該能夠帶來更理想的預測結論。”
兩支競選團隊完全能夠依靠選民分布、個人資料以及“行為分析機制帶來清晰的宏觀結論”,Rouda表示。“這實際上屬于傳統分析方案的失敗,而非數學方法的失敗或者大數據的失敗。”
他建議稱,預測各方應當更多將民意調查數據與社交媒體加以結合。相比之下,數字處理方案則更擅長于提供更為細微的財務性指標。
需要指出的是,在大多數全國性民意調查中,希拉里僅以小幅度優勢取勝,其優勢僅存在于誤差范圍內。截至上周三上午,希拉里在超過1.185億張投票中領先18萬5千票,但其至少在27個州內落敗,其中包括數個原本預測其獲勝的州。最終電子計票結果則顯示,她的總得票數并不及特朗普。
然而,錯誤的預測結果似乎并非單純源自誤差范圍,普林斯頓選舉財團主管Samuel Wang教授指出——該財團曾在上周二早晨預測希拉里的獲勝機率高達99%。
民意調查結果源自“一項系統性錯誤,”Wang在郵件中解釋稱。“整個民意調查投票組都被關閉。這是一項巨大的錯誤,且對結論的影響比率高達4%左右。”
Wang指出,他仍然在對這些結果進行評估。發生預測錯誤的原因之一,可能在于猶豫不決選民群體的搖擺態度。
“民意調查人員使用了‘未決定’這樣的字眼,但這實際意味著此類選民無法表達自己的偏好——他們甚至自己也沒有意識到這一點,”他指出。
在競選初期,約有20%的共和黨選民抱有這種“未決定”態度,Wang指出。“對于他們,投票給特朗普確實是個困難的選擇,因為他們不知道該忠于黨派立場還是反對激進候選人,”他補充道。“最終,也許是對黨派的忠誠讓他們下定了決心。”
Wang與Ovum大數據分析師Tony Baer都建議稱,民意調查工作可能低估了那些難以觸及的選民。美國的許多居民已經不再使用固定電話,這使得調查正確目標變得更加困難,Baer表示。
另外,人們在民意調查中給出的結論也許并非出自本心。民意調查有可能得到“錯誤的信號”,Baer在郵件中指出。
“當擁有足夠龐大的數據集時,大家可以找到關于任何事物的信號,”他補充稱。“因此,這就強調了正確數據集以及提出正確問題的重要性,意味著我們需要利用更多不同的數據集測試自己的假設。”
在被問及對特朗普獲勝作何感想時,Baer表示他“和其他人一樣感到困惑。”
原文標題:Is Trump's unexpected victory a failure for big data? Not really,作者:Grant Gross
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】