大數(shù)據(jù)分析:川普贏定大選了?
昨天川普和希拉里的辯論大家都看了嗎?看這篇就夠了。
要說這場(chǎng)辯論賽,確實(shí)很有看頭。因?yàn)檫@兩人在政策取向、個(gè)人風(fēng)格方面反差很大,而所受的爭(zhēng)議也為美國(guó)歷史所罕見。川普大叔和希拉里進(jìn)行了第一場(chǎng)總統(tǒng)候選人辯論,數(shù)據(jù)顯示,全美有超過8000萬人觀看直播。
單從辯論能力來說,川普一個(gè)商人能和律師出身的高級(jí)政客辯到這份兒上,大數(shù)據(jù)分析科學(xué)家們幫了不少忙。
最早運(yùn)用大數(shù)據(jù)技術(shù)的是奧巴馬,但在目前數(shù)據(jù)源的渠道越來越多、先進(jìn)的分析工具陸續(xù)開發(fā),以及大規(guī)模計(jì)算能力增長(zhǎng),2016 年這場(chǎng)大選簡(jiǎn)直就是大數(shù)據(jù)的盛宴。
本篇不打算重復(fù)他們說了什么,而要扒一扒他們背后使了什么高科技?
希拉里堪比硅谷公司的大數(shù)據(jù)團(tuán)隊(duì):希拉里擁有一支由50名專業(yè)的程序員和開發(fā)者構(gòu)成的技術(shù)團(tuán)隊(duì),他們?cè)竟┞氂?Facebook、Google、Twitter等大型的科技公司,現(xiàn)在想利用更多技術(shù)手段幫助希拉里贏取更多選票和資金。比如,民主黨對(duì)于競(jìng)選頁面進(jìn)行細(xì)微的調(diào)整,讓捐贈(zèng)人可以儲(chǔ)存信用卡信息。電商公司的經(jīng)驗(yàn)告訴我們,這是將窗口用戶變?yōu)楦顿M(fèi)用戶的關(guān)鍵,在政治上也同樣如此。
此外,希拉里的技術(shù)團(tuán)隊(duì)還能應(yīng)對(duì)一些突發(fā)的技術(shù)問題。2015 年,聯(lián)邦競(jìng)選委員會(huì)報(bào)告競(jìng)選籌資截止日當(dāng)天,外部郵箱系統(tǒng)突然崩潰,競(jìng)選團(tuán)隊(duì)在 4個(gè)多小時(shí)內(nèi)搭建了一個(gè)臨時(shí)郵箱系統(tǒng) Balloon,以應(yīng)對(duì)突如其來的危機(jī)。
那么,希拉里科技團(tuán)隊(duì)就是一硅谷公司,川普只有Twitter?錯(cuò)!
在辯論中起效果的川普大數(shù)據(jù)團(tuán)隊(duì):川普的競(jìng)選團(tuán)隊(duì)則運(yùn)用大數(shù)據(jù)來分析希拉里過去十來年的辯論演講,尋找她的弱點(diǎn)與習(xí)慣性語言和動(dòng)作。
因此,此次辯論與初選期間比較,川普的表現(xiàn)比較平和,沒有叫對(duì)手外號(hào),也沒有說些尖刻的挖苦話。這也許是為了爭(zhēng)取那些對(duì)川普個(gè)性感到不舒服的選民,但是另外一方面,也讓他在進(jìn)攻時(shí)顯得畏首畏尾。在對(duì)手發(fā)言的時(shí)候,川普臉上表情很多,令人覺得有點(diǎn)孩子氣。看來自身問題還得靠自己改變。 不過,川普已經(jīng)很努力了,綜觀整場(chǎng)辯論會(huì),川普開場(chǎng)26分鐘就打斷希拉里25次,推特上的相關(guān)討論亦有六成以上有關(guān)川普,僅三成不與希拉里相關(guān),換句話說,川普再度以一個(gè)走入美國(guó)主流政治的非典型候選人形象,吸引普羅大眾的目光。
重點(diǎn)來了,大數(shù)據(jù)當(dāng)真能助選嗎?
早在 2012 年奧巴馬競(jìng)選時(shí),民主黨的競(jìng)選團(tuán)隊(duì)中就吸納了一批有類似特質(zhì)的科技人員,開發(fā)了一套數(shù)據(jù)庫(kù) Narwal 用于管理投票情況。助奧巴馬連任成功,功不可沒。
與過去相比,現(xiàn)今的總統(tǒng)選舉在利用大數(shù)據(jù)分析這一塊更加旗鼓相當(dāng)。拼的就是誰做得更好。
任何數(shù)據(jù)分析工作的執(zhí)行,都需要做好三方面的準(zhǔn)備:
1. 幕后的兩家大數(shù)據(jù)公司收集和整理數(shù)據(jù)
從目前來看,大數(shù)據(jù)分析現(xiàn)在是大型政治選舉的桌面籌碼。當(dāng)需要幫助政治家盡可能有效地拉選票時(shí),大數(shù)據(jù)收集和整理就必不可少。
先扒一下兩家大數(shù)據(jù)公司。
TargetSmart 給民主黨派和州民主黨派以及他們的同盟提供大數(shù)據(jù)分析和服務(wù);Deep RootAnalytics,給共和黨及其從屬團(tuán)隊(duì)提供數(shù)據(jù)分析。

Deep Root 和 TargetSmart 都是利用 Alteryx 的軟件來說明他們?nèi)菁{、凈化、混合以及分析來源不同的大規(guī)模資料。這種分析軟件以一種最有效的方法,來分析所有選民的年齡結(jié)構(gòu),根據(jù)不同年齡段來分段并且打分,然后利用這些資訊來優(yōu)化他們?cè)诿襟w上的花銷,特別是在非常重要的電視廣告上。
Deep Root 利用它的分析模型來告訴參選者,在他們已有電視預(yù)算的條件下,哪些地方能獲得最大的收獲。正如 Seawright 表示,資料分析在每天的決策過程中發(fā)揮很重要的作用。
資料將會(huì)指示客戶該將他們的競(jìng)選廣告放到哪,才能讓他們的目標(biāo)人群最有可能看到,也會(huì)提示他們花銷的紀(jì)錄,透過讓客戶在情景中能夠意識(shí)到這個(gè)問題,不僅提供他們所做的與目標(biāo)人群相關(guān)的理由,而且也會(huì)分析競(jìng)爭(zhēng)對(duì)手或同盟所做的,對(duì)目標(biāo)人群的影響,這就允許他們能夠?qū)φ谶M(jìn)行的分配任務(wù)具有策略性,并對(duì)廣告投放更聰明——把廣告投放在最不顯眼而又最高效的地方,同時(shí)根據(jù)其他人或組織的移動(dòng)來及時(shí)做出反應(yīng)。
TargetSmart 也提供相似的分析服務(wù),但是透過利用資料來優(yōu)化移動(dòng)不僅只是在電視廣告投放上,也在客服中心活動(dòng)、傳統(tǒng)郵件及社區(qū)拉票,TargetSmart 在它的 360 度投票者聯(lián)系技術(shù)上比他們的老對(duì)手走得更遠(yuǎn)。
2.“精準(zhǔn)”,了解個(gè)性化需求
大數(shù)據(jù)技術(shù)顯然已經(jīng)推翻了美國(guó)歷史上總統(tǒng)選舉的定律:誰籌的錢越多誰勝出可能性越大、誰花的錢越多誰就會(huì)贏。
但要做到“精準(zhǔn)”是一個(gè)與業(yè)務(wù)定制的過程。
曾經(jīng)奧巴馬團(tuán)隊(duì)能取得顛覆性的勝利,是因?yàn)樗麄冏龅搅巳齻€(gè)最根本目標(biāo):讓更多的人掏更多的錢,讓更多的選民投票給奧巴馬,讓更多的人參與進(jìn)來!這些都緣于他們對(duì)選民的認(rèn)知達(dá)到了“微觀”層面:每個(gè)選民最有可能被什么因素說服?每個(gè)選民在什么情況下最有可能掏腰包?什么樣的廣告投放渠道能夠最高效獲取目標(biāo)選民?這些都緣于他們對(duì)選民的認(rèn)知達(dá)到了“微觀”層面:每個(gè)選民最有可能被什么因素說服?每個(gè)選民在什么情況下最有可能掏腰包?什么樣的廣告投放渠道能夠最高效獲取目標(biāo)選民?
機(jī)器學(xué)習(xí)是數(shù)據(jù)挖掘中常用的方法,它的基本原理是讓計(jì)算機(jī)從歷史數(shù)據(jù)中“學(xué)習(xí)”其中的規(guī)律,并利用該規(guī)律對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè),這個(gè)過程也就是建模和預(yù)測(cè)的過程。因此,當(dāng)用戶數(shù)據(jù)因業(yè)務(wù)而異時(shí),每一組數(shù)據(jù)中都會(huì)有自己獨(dú)特的數(shù)據(jù)模型,這也就是與實(shí)際業(yè)務(wù)相定制的過程。比如,奧巴馬的數(shù)據(jù)團(tuán)隊(duì)就會(huì)對(duì)每一個(gè)群體的選民都進(jìn)行建模,進(jìn)而預(yù)測(cè)他們的捐款行為方式(通過網(wǎng)絡(luò)捐款,還是會(huì)匯款)。
因此,在激烈的市場(chǎng)競(jìng)爭(zhēng)中,誰能夠深入的了解他的每一個(gè)用戶的個(gè)性化需求,誰就能在競(jìng)爭(zhēng)中擊敗對(duì)手,獲取勝利。
兩家公司還幫助川普和希拉里在社交領(lǐng)域進(jìn)行加碼:
兩家大公司都正在越過電視領(lǐng)域來到類似社交媒體的數(shù)碼媒介來探險(xiǎn)。但是這種嘗試是非常艱難的,因?yàn)閿?shù)碼媒介上的資料更概略,透過媒體分析并不容易知道你所要到達(dá)的目標(biāo)人群。
TargetSmart 在這一領(lǐng)域正在做一些創(chuàng)新性的工作,透過利用個(gè)人可辨識(shí)的資訊,這家公司將2.55 億國(guó)內(nèi)投票者資料與類似 Facebook、Google、Yahoo 及 MSN 等數(shù)碼平臺(tái)上的使用者匹配。他們不能夠?qū)⒚總€(gè)推特用戶與注冊(cè)的投票者相匹配,但是能得到一個(gè)內(nèi)部可以利用的相當(dāng)規(guī)模的資料。如果按正確的方法來做這件事,它就會(huì)注入到你的模型中。這也是這次選舉一個(gè)重要的副產(chǎn)品。
利用社交媒體資料來更廣泛地理解人們的消費(fèi)方式,還有人們與社交媒體連接的方式,這對(duì)于大數(shù)據(jù)分析而言將會(huì)更有價(jià)值。
3 .動(dòng)態(tài)調(diào)整模型
模型需要根據(jù)實(shí)際情況進(jìn)行動(dòng)態(tài)調(diào)整。用戶因環(huán)境、喜好或其他因素常常會(huì)導(dǎo)致其行為規(guī)律發(fā)生一定的變化,使得其產(chǎn)生的數(shù)據(jù)也隨之變化,這些變化將會(huì)影響模型的精準(zhǔn)性。
比如奧巴馬在第一次電視辯論結(jié)束后,選民的投票傾向發(fā)生改變。而數(shù)據(jù)分析團(tuán)隊(duì)可以立即知道什么樣的選民改變了態(tài)度,什么樣的選民仍堅(jiān)持原來的投票選擇。
不過,自從英國(guó)公投后,民調(diào)變得不那么靠譜了。
據(jù)CNN于辯論后公布的最新數(shù)據(jù),有62%的民眾認(rèn)為希拉里技?jí)喝珗?chǎng),只有27%的民眾認(rèn)為川普占了上風(fēng);而彭博發(fā)出的數(shù)據(jù)顯示,川普已經(jīng)領(lǐng)先了兩個(gè)百分點(diǎn)。

進(jìn)一步分析,亞裔多數(shù)不喜歡川普,支持川普的華裔多是新移民有強(qiáng)烈的民族主義,崇尚財(cái)富,認(rèn)為美國(guó)必須嚴(yán)執(zhí)移民法。

但川普已經(jīng)步步為營(yíng),與希拉里拉小了差距,未來結(jié)果還未可知,想必?cái)?shù)據(jù)科學(xué)家們此時(shí)還在針對(duì)投票趨勢(shì)在調(diào)整模型中。
11月8日,美國(guó)大選日見分曉!