自然語言處理透析希拉里和特朗普各自的“演講范兒”
編者按當(dāng)?shù)貢r間10月9日,美國總統(tǒng)大選兩名候選人第二場公開辯論將登場,特朗普和他的對手希拉里·克林頓將在圣路易華盛頓大學(xué)進(jìn)行第2場大選辯論,時長90分鐘。
不管是演講或辯論,兩位候選人都有自己獨特的“演講范兒”,使用語義分析和自然語言處理分析兩人的演講風(fēng)格是件有趣的事情。本文通過自然語言處理分析兩人的總統(tǒng)候選人提名演講,發(fā)現(xiàn)了他們在用詞和演講節(jié)奏上的不同特點。
數(shù)據(jù)科學(xué)可以應(yīng)用到很多領(lǐng)域。從圖像處理到人工智能,無所不能。其中之語義分析(semantic analysis),在社交媒體監(jiān)測中非常有用。本文聚焦于政治,而非推特或臉書的評論分析。
今年7月21日,唐納德•特朗普,在俄亥俄州的克利夫蘭舉行的共和黨全國代表大會的最后一天接受了共和黨總統(tǒng)候選人提名。一周之后的28日,希拉里•克林頓在費城接受了民主黨總統(tǒng)候選人提名。
在家人和成千上萬粉絲的支持下,他們發(fā)表了各自的提名演講。本文對此進(jìn)行了分析,以期更好地理解這份政治通訊背后隱藏的深意。本文集中在三個特征上:詞匯、風(fēng)格和節(jié)奏。
深扒詞匯
評價誰使用的詞匯量最大的方法之一是看演講者用了有多少獨特的詞。為此需要先去除英語中沒有“意義”的那些詞(如“the”,“a”,“of”等)。這些詞也叫停用詞:具體名單可參照此鏈接http://www.ranks.nl/stopwords。其次,重復(fù)詞只能計算一次。英語中的名詞單復(fù)數(shù),動詞不同人稱時態(tài)也用Snowball Stemmer算法做相應(yīng)處理: 比如Leaders和Leader算一個詞,Am和Are也算一個詞。
注::想更多了解Snowball Stemmer算法可以參照這里http://snowball.tartarus.org/texts/introduction.html
我們發(fā)現(xiàn)特朗普的演講大概13%的詞匯是獨特的(全文7460個單詞中有965個不同的主干詞)。平均每個詞重復(fù)7.7次。而希拉里有17%的獨特詞,每個詞平均重復(fù)約6次。區(qū)別很明顯:特朗普的演講之80%只需要480個詞,而希拉里需要665個詞!多出來38%,意味著我們開始得到一些結(jié)果了。
構(gòu)成候選人演講搞80%的詞匯量
演講的效率部分依賴于演講者的風(fēng)格。本文試圖找出兩名候選人最心愛的詞。尋找“特朗普范兒”或者“希拉里范兒”的詞,即找出一個候選人中使用最頻繁而在其競爭對手那使用最少的詞。比如,“really”這個詞,在特朗普的演講中出現(xiàn)了15次,在希拉里的演講中僅出現(xiàn)1次。計算的方法之一是計算每個詞的“比值比(odds ratio)”。公式如下:
分子是某個詞在特朗普詞匯表中出現(xiàn)的概率,分母為同樣的詞在希拉里文中出現(xiàn)的概率。取對數(shù)使得我們可以高效的進(jìn)行排序:當(dāng)二者旗鼓相當(dāng)時,對數(shù)值為0。否則要么為負(fù)(希拉里范兒)或為正(特朗普范兒)。結(jié)果如下:

我們注意到的第一件事是,特朗普喜歡用短而常見的詞,反復(fù)使用:真的(really),很好(nice),非常好(great),問題(problem)。還有一點,我們可以感覺到這位共和黨候選人的某種成見:墨西哥,中國,伊朗。總體而言,特朗普關(guān)注的似乎更偏向于國際問題。大部分他所提及的外務(wù),旨在煽動恐懼,尋找替罪羊。
而希拉里一方,詞匯的范圍更廣。“希拉里范兒”的詞傾向于較為罕見的詞。希拉里•克林頓提到“美國”的次數(shù)大大多于特朗普:27:5。“希拉里范兒”的詞表提示,希拉里的演講更加著眼于國內(nèi)事物。她典型的詞包括:一起(together),運動(campaign)和努力(hard)。唐納德•特朗普的名字也多次出現(xiàn)在她的演講中。
認(rèn)真的讀者會發(fā)現(xiàn),“特朗普”這個詞并沒有出現(xiàn)在“希拉里范兒”的詞表中,這是因為特朗普在他的演講中,多次提到他自己的名字(10次),因此把比值比拉下來了。作為對比,希拉里的名字只提到了2次:一次在希拉里自己的演講中(提到她的丈夫比爾•克林頓),一次被特朗普提到。并且,“希拉里范兒”的詞“想要(wants)”出現(xiàn)在批評她的對手時(“他想要分裂我們…”,“他想要我們懼怕未來,懼怕彼此”)顯然,希拉里談?wù)摿颂乩势眨乩势照務(wù)摰氖?hellip;他自己!

所有人都在談?wù)撎乩势?/strong>
我們也可以來看看雙方都在用的詞。它們代表了二者的共識。不出意料,它們是“工作(jobs)”、“國家(country)”、“思考(thinking)”。他們都說了很多次“謝謝”,但方式不同:希拉里特別感謝了一些人,而特朗普主要是在觀眾鼓掌的時候致謝。

由于背景的不同,兩位候選人都有自己的節(jié)奏。評價語言的內(nèi)在節(jié)奏,一個好的開端是:把演講分割為很多句子,句子再分割成單詞。我們發(fā)現(xiàn),特朗普的演講較長:有625個句子和7460個單詞。而希拉里只用到405個句子和6088個單詞。就是說,特朗普比他的對手,多用了54%的句子,長了23%。
特朗普的平均句子長度是12個單詞,希拉里的句子稍長,平均每句15個詞。大部分特朗普的句子都很短:演講21%由5-6個單子的短句組成。希拉里的句子長度更均勻,12個單詞的是最常見的。
奧巴馬的句子長度是特朗普和希拉里之和
我們看到了特朗普和希拉里的一個明顯區(qū)別:特朗普演講簡單明快,而希拉里更加多樣、冷靜。但是等等!她并不是非同尋常:奧巴馬在他的第一次提名演講中,平均每句話用到25.7個單詞,幾乎是希拉里和特朗普之和。奧巴馬的重復(fù)用詞也比希拉里少了24%,比特朗普少了42%。我想,這說明,雖然希拉里的節(jié)奏要慢一點兒,句子結(jié)構(gòu)要復(fù)雜點兒,她的演講風(fēng)格與對手仍然非常接近。
寫在最后
自然語言處理不是一門精確的科學(xué)。只能給我們一些線索和元件,據(jù)此來理解演講。語料庫也很短,需要更多的分析來提取更精確的特征。但是從本文的分析,我們發(fā)現(xiàn)了什么?
1. 特朗普談?wù)撍械氖虑槭?ldquo;真的”,“很好”,“非常好”,而希拉里談?wù)摰氖侨绾?ldquo;為美國”“一起”“工作”。
2. 特朗普談?wù)摰氖撬约海@镎務(wù)摰氖翘乩势铡km然希拉里用到了更大的詞匯表,更復(fù)雜的句子結(jié)構(gòu),看起來她或多或少采用了特朗普的說話方式。
3. 奧巴馬的提名演講(兩次均是)采用了更大的詞匯表,復(fù)雜得多的句子結(jié)構(gòu),表明特朗普顛覆性地簡化了這樣國家級的演講。