成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數(shù)據(jù)背后的神秘公式(下):“貝葉斯革命”

大數(shù)據(jù)
貝葉斯公式在聯(lián)邦黨人文集作者公案和天蝎號核潛艇搜救中大顯身手后(詳見大數(shù)據(jù)背后的神秘公式(上):貝葉斯公式),開始引起學(xué)術(shù)界的注意和重視,而其上世紀八十年代在自然語言處理領(lǐng)域的成功,向我們展示了一條全新的問題解決路徑。計算能力的不斷提高和大數(shù)據(jù)的出現(xiàn)使它的威力日益顯現(xiàn),一場轟轟烈烈的“貝葉斯革命”正在發(fā)生。

[[170719]]

在上一篇文章《大數(shù)據(jù)背后的神秘公式(上):貝葉斯公式》中我們講到貝葉斯公式在聯(lián)邦黨人文集作者公案和天蝎號核潛艇搜救中大顯身手后,開始引起學(xué)術(shù)界的注意和重視,而其上世紀八十年代在自然語言處理領(lǐng)域的成功,向我們展示了一條全新的問題解決路徑。計算能力的不斷提高和大數(shù)據(jù)的出現(xiàn)使它的威力日益顯現(xiàn),一場轟轟烈烈的“貝葉斯革命”正在發(fā)生。

一、 真正的突破

自然語言處理就是讓計算機代替人來翻譯語言、識別語音、認識文字和進行海量文獻的自動檢索。但是人類的語言可以說是信息里最復(fù)雜最動態(tài)的一部分。人們最初想到的方法是語言學(xué)方法,讓計算機學(xué)習(xí)人類的語法、分析語句等等。尤其是在喬姆斯基(有史以來最偉大的語言學(xué)家)提出 “形式語言” 以后,人們更堅定了利用語法規(guī)則的辦法進行文字處理的信念。遺憾的是,幾十年過去了,在計算機語言處理領(lǐng)域,基于這個語法規(guī)則的方法幾乎毫無突破。

其實早在幾十年前,數(shù)學(xué)家兼信息論的祖師爺香農(nóng) (Claude Shannon)就提出了用數(shù)學(xué)方法處理自然語言的想法。遺憾的是當(dāng)時的計算機根本無法滿足大量信息處理的需要,所以他的這一想法并沒有引起重視。

率先成功利用數(shù)學(xué)方法解決自然語言處理問題的是語音和語言處理大師賈里尼克 (Fred Jelinek)。他引入一個全新的視角,認為語音識別就是根據(jù)接收到的一個信號序列推測說話人實際發(fā)出的信號序列(說的話)和要表達的意思。這就把語音識別問題轉(zhuǎn)化為一個通信問題,而且進一步可以簡化為用貝葉斯公式處理的數(shù)學(xué)問題。

一般情況下,一個句子中的每個字符都跟它前面的所有字符相關(guān),這樣公式中的條件概率計算就非常復(fù)雜,難以實現(xiàn)。為了簡化問題,他做了兩個假設(shè):

1. 說話人說的句子是一個馬爾科夫鏈,也就是說,句子中的每個字符都只由它前一個字符決定;

2. 獨立輸入假設(shè),就是每個接受的字符信號只由對應(yīng)的發(fā)送字符決定。

這樣的簡化看起來有點簡單粗暴,每個字符在語義上都是和文章的其他部分相關(guān)的,怎么可能只跟它前一個字符相關(guān)呢?很多人不相信用這么簡單的數(shù)學(xué)模型能解決復(fù)雜的語音識別、機器翻譯等問題。其實不光是一般人,就連很多語言學(xué)家都曾質(zhì)疑過這種方法的有效性。但事實證明,這個基于貝葉斯公式的統(tǒng)計語言模型比任何當(dāng)時已知的借助某種規(guī)則的解決方法都有效。賈里尼克和貝克夫婦在七十年代分別獨立提出用這個模型進行語音識別,八十年代微軟公司用這個模型成功開發(fā)出第一個大詞匯量連續(xù)語音識別系統(tǒng)。現(xiàn)在我們手機上的語音識別和語音輸入功能都已經(jīng)非常成熟而且好用了。

更加可貴的是,這種語音識別系統(tǒng)不但能夠識別靜態(tài)的詞庫,而且對詞匯的動態(tài)變化具有很好的適應(yīng)性,即使是新出現(xiàn)的詞匯,只要這個詞已經(jīng)被大家高頻使用,用于訓(xùn)練的數(shù)據(jù)量足夠多,系統(tǒng)就能正確地識別。這反映出貝葉斯公式對現(xiàn)實變化的高度敏感,對增量信息有非常好的適應(yīng)能力。

自然語言處理方面的成功開辟了一條全新的問題解決路徑:

1.原來看起來非常復(fù)雜的問題可以用貝葉斯公式轉(zhuǎn)化為簡單的數(shù)學(xué)問題;

2.可以把貝葉斯公式和馬爾科夫鏈結(jié)合以簡化問題,使計算機能夠方便求解;雖然我們不完全了解為什么這種看似粗暴的簡化并不影響我們的研究過程,但從實踐看來它非常有效;

3.將大量觀測數(shù)據(jù)輸入模型進行迭代——也就是對模型進行訓(xùn)練,我們就可以得到希望的結(jié)果。

隨著計算能力的不斷提高、大數(shù)據(jù)技術(shù)的發(fā)展,原來手工條件下看起來不可思議的進行模型訓(xùn)練的巨大工作量變得很容易實現(xiàn),它們使貝葉斯公式巨大的實用價值體現(xiàn)出來。

二、 經(jīng)典統(tǒng)計學(xué)的困難和貝葉斯革命

1. 經(jīng)典統(tǒng)計學(xué)的困難

當(dāng)貝葉斯方法在實際應(yīng)用中不斷證明自己的同時,經(jīng)典統(tǒng)計學(xué)卻遇到了困境。經(jīng)典統(tǒng)計學(xué)比較適合于解決小型的問題,同時該方法要求我們獲得足夠多的樣本數(shù)據(jù),而且要求這些樣本能夠代表數(shù)據(jù)的整體特征。在處理涉及幾個參數(shù)的問題時,它可以得心應(yīng)手。但如果相對于問題的復(fù)雜程度,我們只掌握少量的信息時,經(jīng)典統(tǒng)計學(xué)就顯得力不從心了,原因就是數(shù)據(jù)的稀疏性問題。

都大數(shù)據(jù)時代了,還存在數(shù)據(jù)稀疏性問題嗎?答案是肯定的。具體來說,一個取決于n個參數(shù),并且每個參數(shù)只有兩種表現(xiàn)(0或者1)的系統(tǒng),共有2的n次方種現(xiàn)象。如果某類癌癥的產(chǎn)生過程中有100個基因參與(這其實很保守了,人類總共有幾萬個基因),那么它有2的100次方種可能的基因圖譜;根據(jù)采樣定理進行估算,采用經(jīng)典統(tǒng)計學(xué)方法至少需要獲得1%-10%的樣本才能確定其病因,也就是需要制作出數(shù)萬億億億個患有該疾病的病人的基因圖譜!這不具備可操作性。所以用經(jīng)典統(tǒng)計學(xué)方法無法解釋由相互聯(lián)系、錯綜復(fù)雜的原因(相關(guān)參數(shù))所導(dǎo)致的現(xiàn)象。

2 .貝葉斯網(wǎng)絡(luò)帶來工具革命

而目前的情況是,相對簡單的問題已經(jīng)解決得差不多了,剩下的都非常復(fù)雜。龍卷風(fēng)的形成、星系的起源、致病基因、大腦的運作機制等,要揭示隱藏在這些問題背后的規(guī)律,就必須理解它們的成因網(wǎng)絡(luò),把錯綜復(fù)雜的事件梳理清楚。由于經(jīng)典統(tǒng)計學(xué)失效,科學(xué)家別無選擇,他們必須從眾多可能奏效的法則中選擇一些可以信任的,并以此為基礎(chǔ)建立理論模型。為了能做出這樣的選擇,為了能在眾多可能性中確定他們認為最為匹配的,過去,科學(xué)家多少是依靠直覺來彌補數(shù)據(jù)上的缺失和空白。而貝葉斯公式正好以嚴謹?shù)臄?shù)學(xué)形式幫他們實現(xiàn)了這一點。科學(xué)家把所有假設(shè)與已有知識、觀測數(shù)據(jù)一起代入貝葉斯公式,就能得到明確的概率值。而要破譯某種現(xiàn)象的成因網(wǎng)絡(luò),只需將公式本身也結(jié)成網(wǎng)絡(luò),即貝葉斯網(wǎng)絡(luò),它是貝葉斯公式和圖論結(jié)合的產(chǎn)物。

網(wǎng)絡(luò)化想法的提出也不是一帆風(fēng)順的。直到上世紀80年代,美國數(shù)學(xué)家朱迪亞·珀爾才證明,使用貝葉斯網(wǎng)絡(luò)應(yīng)該可以揭示復(fù)雜現(xiàn)象背后的成因。操作原理是這樣的:如果我們不清楚一個現(xiàn)象的成因,首先根據(jù)我們認為最有可能的原因來建立一個模型;然后把每個可能的原因作為網(wǎng)絡(luò)中的節(jié)點連接起來,根據(jù)已有的知識、我們的預(yù)判或者專家意見給每個連接分配一個概率值。接下來只需要向這個模型代入觀測數(shù)據(jù),通過網(wǎng)絡(luò)節(jié)點間的貝葉斯公式重新計算出概率值。為每個新數(shù)據(jù)、每個連接重復(fù)這種計算,直到形成一個網(wǎng)絡(luò)圖,任意兩個原因之間的連接都得到精確的概率值為止,就大功告成了。即使實驗數(shù)據(jù)存在空白或者充斥噪聲和干擾信息,不懈追尋各種現(xiàn)象發(fā)生原因的貝葉斯網(wǎng)絡(luò)依然能夠構(gòu)建出各種復(fù)雜現(xiàn)象的模型。貝葉斯公式的價值在于,當(dāng)觀測數(shù)據(jù)不充分時,它可以將專家意見和原始數(shù)據(jù)進行綜合,以彌補測量中的不足。我們的認知缺陷越大,貝葉斯公式的價值就越大

心血管疾病成因的貝葉斯網(wǎng)絡(luò)

 

 和前面提到的馬爾可夫鏈類似,我們可以假設(shè)貝葉斯網(wǎng)絡(luò)中每個節(jié)點的狀態(tài)值取決于其前面的有限個狀態(tài)。不同的是,貝葉斯網(wǎng)絡(luò)比馬爾可夫鏈靈活,它不受馬爾可夫鏈的鏈狀結(jié)構(gòu)的約束,因此可以更準確地描述事件之間的相關(guān)性。可以說,馬爾可夫鏈是貝葉斯網(wǎng)絡(luò)的特例,而貝葉斯網(wǎng)絡(luò)是馬爾可夫鏈的推廣,它給復(fù)雜問題提供了一個普適性的解決框架。

為了確定各個節(jié)點之間的相關(guān)性,需要用已知數(shù)據(jù)對貝葉斯網(wǎng)絡(luò)進行迭代和訓(xùn)練。由于網(wǎng)絡(luò)結(jié)構(gòu)比較復(fù)雜,理論上,用現(xiàn)有的計算機是不可計算的(基于馮·諾依曼結(jié)構(gòu)的計算機無法解決這種NP復(fù)雜度的問題,NP(Non-deterministic Polynomial)指用非確定機在多項式時間內(nèi)可以解決的問題類)。但對于一些具體的應(yīng)用,可以根據(jù)實際情況對網(wǎng)絡(luò)結(jié)構(gòu)(采用網(wǎng)絡(luò)拓撲的圖同構(gòu)技術(shù))和訓(xùn)練過程進行簡化,使它在計算上可行。如果量子計算機開發(fā)成功,將能夠完全解決其計算問題。這樣,貝葉斯公式為科學(xué)家開辟的新路就完全打通了。

今天一場轟轟烈烈的“貝葉斯革命”正在發(fā)生:生物學(xué)家用貝葉斯公式研究基因的致病機制;基金經(jīng)理用貝葉斯公式找到投資策略;互聯(lián)網(wǎng)公司用貝葉斯公式改進搜索功能,幫助用戶過濾垃圾郵件;大數(shù)據(jù)、人工智能和自然語言處理中都大量用到貝葉斯公式。既然在手工時代,我們無法預(yù)測到今天貝葉斯公式與計算機結(jié)合的威力,那么我們怎么能忽視貝葉斯網(wǎng)絡(luò)與量子計算機結(jié)合可能蘊藏的巨大潛力呢?

3.人類大腦的構(gòu)建方式?

貝葉斯公式不僅在自然科學(xué)領(lǐng)域掀起革命,它的應(yīng)用范圍也延伸到了關(guān)于人類行為和人類大腦活動的研究領(lǐng)域。教育學(xué)家突然意識到,學(xué)生的學(xué)習(xí)過程其實就是貝葉斯公式的運用;心理學(xué)家證明貝葉斯方法是兒童運用的唯一思考方法,其他方法他們似乎完全不會。進一步,心理學(xué)研究的成果使科學(xué)家思考人類的大腦結(jié)構(gòu)是否就是一個貝葉斯網(wǎng)絡(luò)。這個公式不僅是研究人類思維的工具,它可能就是大腦本身的構(gòu)建方式。這個觀點十分大膽,但獲得越來越廣泛的認可。因為貝葉斯公式是我們在沒有充分或準確信息時最優(yōu)的推理結(jié)構(gòu),為了提高生存效率,進化會向這個模式演進。貝葉斯公式突然滲透到一切科學(xué)領(lǐng)域,提供了通用的研究框架,這是十分罕見的事情。

人工智能近年來取得了長足的進步,但目前的人工智能通常需要從大量的數(shù)據(jù)中進行學(xué)習(xí),而人類具有“僅從少量案例就形成概念”的能力,兩者之間存在巨大差距。比如,盡管你這輩子只見過一個菠蘿,但你一眼就能看出菠蘿的特征,很快就能從一堆水果中認出菠蘿來,甚至還能在紙上畫出菠蘿的簡筆畫,而目前的人工智能算法得看成千上萬張菠蘿的圖片才能做到。

不過,這種情況或許已經(jīng)開始改變了。2015年底,一篇人工智能論文登上了《 科學(xué) 》雜志的封面,為人們帶來了人工智能領(lǐng)域的一個重大突破: 三名分別來自麻省理工學(xué)院、紐約大學(xué)和多倫多大學(xué)的研究者開發(fā)了一個“只看一眼就會寫字”的計算機系統(tǒng)。只需向這個系統(tǒng)展示一個來自陌生文字系統(tǒng)的字符,它就能很快學(xué)到精髓,像人一樣寫出來,甚至還能寫出其他類似的文字——更有甚者,它還通過了圖靈測試,我們很難區(qū)分下圖中的字符是人類還是機器的作品。這個系統(tǒng)采用的方法就是貝葉斯程序?qū)W習(xí)(Bayesian Program Learning)——一種基于貝葉斯公式的方法。這不但是人工智能領(lǐng)域的重大突破,而且為我們認識人腦的學(xué)習(xí)機制提供了重要參考。

 

人和機器作品對比圖

三 理念的革命

這不僅僅是一場科學(xué)的革命,同樣也是一場理念的革命。當(dāng)科學(xué)不斷強調(diào)其對世界認識的客觀性時,貝葉斯公式卻融入了主觀性因素:它并不向我們表述世界,而是表述我們所掌握的知識和經(jīng)驗。這些帶有觀察者個人因素的知識是脫離研究現(xiàn)象本身的;而它在向我們描述外部現(xiàn)實世界的同時,也描述了觀察者對現(xiàn)實的認知的缺陷。更重要的,它迫使我們認識到,科學(xué)理論和科學(xué)模型反映的是現(xiàn)實的心理意象,而不是現(xiàn)實本身。而現(xiàn)實為我們提供數(shù)據(jù),以保證對現(xiàn)實的意象不會離現(xiàn)實本身太遠。在尋找各種現(xiàn)象原因的同時,它也在規(guī)范著我們的思想。

四 、貝葉斯公式這么牛,與我何干?

我們經(jīng)常需要在信息不充分或者不準確的情況下進行判斷和決策,一條街上哪個飯館最靠譜?在自習(xí)室驚鴻一瞥的女神有沒有男朋友?老公的公文包里發(fā)現(xiàn)一只口紅,他有沒有出軌?新開發(fā)的App應(yīng)該等做得盡善盡美再發(fā)布,還是應(yīng)該盡早發(fā)布,用互聯(lián)網(wǎng)的力量幫助它完善?我應(yīng)該選擇哪個工作offer或者還是考公務(wù)員才能使自己的收益最大化?

貝葉斯公式為我們提供了一些決策原則:

平時注意觀察和思考,建立自己的思維框架,這樣在面臨選擇時就容易形成一個接近實際情況的先驗概率,這樣經(jīng)過少量的試錯和糾錯的迭代循環(huán)就可能得到理想的結(jié)果;在經(jīng)過很多次選擇和實踐的歷練后就能夠形成自己的直覺,在面對陌生情況時,根據(jù)自己的經(jīng)驗和少量信息就能夠快速地做出比較準確的判斷。

大數(shù)據(jù)時代獲得信息的成本越來越低,社會也變得更加開放和包容,初始狀態(tài)(先驗概率)的重要性下降了,即使最初選擇不理想,只要根據(jù)新情況不斷進行調(diào)整,仍然可以取得成功。所以如果當(dāng)下覺得很難做出選擇,那就傾聽內(nèi)心的聲音,讓直覺來選擇,這有利于治療選擇恐懼癥。

以開發(fā)App的例子來說,先按照自己的想法弄個可用的原型出來,然后充分利用互聯(lián)網(wǎng)的力量,讓活躍的用戶社區(qū)幫助它快速迭代,逐漸使它的功能和體驗越來越好。

對新鮮事物保持開放的心態(tài),愿意根據(jù)新信息對自己的策略和行為進行調(diào)整。

“大膽假設(shè),小心求證”,“不斷試錯,快速迭代”,這些都可以看成貝葉斯公式的不同表述。英國哲學(xué)家以賽亞·伯林(Isaish Berlin)曾經(jīng)援引古希臘詩人的斷簡殘片“狐貍多知而刺猬有一大知”,將人的策略分為狐貍和刺猬兩類。刺猬用一個宏大的概念解釋所有現(xiàn)象,而狐貍知道很多事情,用多元化的視角看待問題,它也愿意包容新的證據(jù)以使得自己的模型與之相適應(yīng)。在這個快速變化的時代,固守一個不變的信條的刺猬很難適應(yīng)環(huán)境的變化,而使用貝葉斯公式的靈活的狐貍才更容易生存。

責(zé)任編輯:趙寧寧 來源: 36大數(shù)據(jù)
相關(guān)推薦

2016-08-30 00:14:09

大數(shù)據(jù)貝葉斯

2013-05-08 09:05:48

狐貍貝葉斯大數(shù)據(jù)

2020-10-09 12:41:04

算法優(yōu)化場景

2012-09-24 10:13:35

貝葉斯

2017-08-07 13:02:32

全棧必備貝葉斯

2023-01-31 15:49:51

機器學(xué)習(xí)函數(shù)評分函數(shù)

2011-10-18 09:23:43

數(shù)據(jù)中心冰島災(zāi)備

2017-03-29 14:50:18

2021-04-18 09:57:45

Java樸素貝葉斯貝葉斯定理

2024-10-11 16:53:16

貝葉斯人工智能網(wǎng)絡(luò)

2016-10-19 16:50:43

大數(shù)據(jù)

2025-01-21 13:15:37

2017-07-24 10:36:37

Python機器學(xué)習(xí)樸素貝葉斯

2021-08-30 11:53:36

機器學(xué)習(xí)人工智能計算機

2023-10-18 08:00:00

貝葉斯網(wǎng)絡(luò)Python醫(yī)療保健

2023-08-17 11:31:18

論文模型

2017-11-07 11:17:40

樸素貝葉斯畫像數(shù)據(jù)數(shù)據(jù)挖掘

2012-02-14 10:55:24

2017-07-12 11:27:05

樸素貝葉斯情感分析Python

2022-09-28 08:00:00

Python機器學(xué)習(xí)算法
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 成人三级视频 | 久久精品国产久精国产 | 国产三区视频在线观看 | 中文字幕第5页 | 亚洲永久入口 | 毛片一级片 | 天啪| 国产一二区免费视频 | 国产成人久久精品一区二区三区 | 丁香色婷婷| 国产精品人人做人人爽 | 国产成人免费视频网站高清观看视频 | 国产在线视频在线观看 | 久久人人爽人人爽人人片av免费 | 免费一二区 | 九九精品视频在线 | 成人a视频片观看免费 | 欧美久久久久 | 欧美一区二区三区视频 | 成人黄色三级毛片 | 日韩精品四区 | 日韩精品免费 | 一区二区三区小视频 | 精品九九在线 | 少妇一级淫片aaaaaaaaa | 性高湖久久久久久久久aaaaa | 成人午夜在线 | 国产在线观看一区 | 日本天堂一区 | 日本午夜免费福利视频 | 亚洲欧美日韩在线不卡 | 91人人视频在线观看 | 国产成都精品91一区二区三 | 超级乱淫av片免费播放 | 亚洲国产中文字幕 | 日韩中文字幕在线观看视频 | 久久久精品一区二区三区 | 中文字幕日韩欧美一区二区三区 | 中文字幕亚洲视频 | 国产激情一区二区三区 | 亚洲免费网 |