成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

面向程序員的數(shù)據(jù)挖掘指南 : 第一章 介紹

開(kāi)發(fā) 前端
想象一下150年前的美國(guó)小鎮(zhèn)生活。人們之間互相非常了解和熟悉,當(dāng)一箱布料被送到某個(gè)商店,商店的店員注意到這種特別的布匹圖案會(huì)是Mrs. Clancey的最愛(ài),因?yàn)樗繫rs. Clancey喜歡明亮的花卉圖案,因此他將記住下次當(dāng)她來(lái)逛商店的時(shí)候把這種布料推薦給她。
  1. Finding stuff
  2. The format of the book
  3. What will you be able to do when you finish this book?
  4. Why does data mining matter? — What is in it for me?
  5. What’s with the Ancient Art of the Numerati in the title?

想象一下150年前的美國(guó)小鎮(zhèn)生活。人們之間互相非常了解和熟悉,當(dāng)一箱布料被送到某個(gè)商店,商店的店員注意到這種特別的布匹圖案會(huì)是Mrs. Clancey的最愛(ài),因?yàn)樗繫rs. Clancey喜歡明亮的花卉圖案,因此他將記住下次當(dāng)她來(lái)逛商店的時(shí)候把這種布料推薦給她。Chow Winkler跟酒吧老板Mr. Wilson聊到他打算賣掉他的備用雷明頓步槍,而Mr. Wilson知道Bud Barclay正在尋找一部?jī)?yōu)質(zhì)步槍,因此他打算在下次Bud Barclay到來(lái)酒吧的時(shí)候告訴他這個(gè)消息。警長(zhǎng)和他的副手們知道他們需要留意那個(gè)身強(qiáng)體壯、脾氣暴躁、嗜酒如命的Lee Pye。100多年前的小鎮(zhèn)生活充滿了各種各樣的聯(lián)系。

150年前的小鎮(zhèn)

大家知道你喜歡什么不喜歡什么,知道你的健康、你的婚姻狀況。無(wú)論好與壞,這些都是個(gè)性化的體驗(yàn)。這種高度個(gè)性化的社區(qū)生活在世界上大多數(shù)國(guó)家是真實(shí)存在的。

讓我們轉(zhuǎn)到二十世紀(jì)六十年代。個(gè)性化的互動(dòng)變得貌似不太可能,但是他們?nèi)匀淮嬖凇.?dāng)某位常客來(lái)到當(dāng)?shù)匾患視?shū)店可能會(huì)聽(tīng)到店員跟他打招呼 說(shuō):“James Michener的新書(shū)到了”,因?yàn)榈陠T知道他喜歡James Michener的書(shū),同時(shí)店員可能會(huì)給他推薦Barry Goldwater的《保守派的良知》,因?yàn)榈陠T知道他是一個(gè)堅(jiān)定的保守主義者。一家飯店的常客走進(jìn)飯店時(shí),總能聽(tīng)到服務(wù)員問(wèn)他:“還是老樣子?”。

即便是在遍布個(gè)性化的當(dāng)今社會(huì)。當(dāng)我去Mesilla當(dāng)?shù)氐囊患铱Х鹊辏Х葞煏?huì)問(wèn): “超大杯拿鐵外帶?”,因?yàn)樗呀?jīng)記住了我每天的購(gòu)買(mǎi)習(xí)慣。我把我的貴婦犬帶到美容師那兒,她都不需要再問(wèn)我喜歡做什么類型的修剪,因?yàn)樗牢蚁矚g沒(méi)有 多余裝飾運(yùn)動(dòng)型,并且喜歡德國(guó)風(fēng)格的耳朵。

然而從100年前的小鎮(zhèn)開(kāi)始,一切都在發(fā)生轉(zhuǎn)變。大型的雜貨商店和超市取代了鄰里的小賣部等傳統(tǒng)的商業(yè)。在轉(zhuǎn)變之初,可供的選擇是非常有限的。 Henry Ford曾經(jīng)說(shuō)過(guò):“任何顧客都可以選擇任何他所中意的汽車顏色,只要它是黑色的。”。 CD店只銷售種類有限的CD;書(shū)店只銷售種類有限的書(shū)本。如果你想吃冰淇淋,口味只有是香草味、巧克力味、或者草莓味。在1950年,想買(mǎi)一臺(tái)洗衣機(jī)?當(dāng) 地的Sears百貨只有兩款供選擇: $55的標(biāo)準(zhǔn)版和$95的豪華版。

歡迎來(lái)到21世紀(jì)

在21世紀(jì)的今天,那些有限的選擇已然成為歷史。如今,想買(mǎi)音樂(lè)?iTunes有1100萬(wàn)首歌可供選擇。1100萬(wàn)!截止到2011年10月,銷售量達(dá)到160億之多。如果我還需要更多的選擇,Spotify上有超過(guò)1500萬(wàn)的歌曲。

如果我想買(mǎi)本書(shū),Amazon上有超過(guò)200萬(wàn)的書(shū)籍可供選擇。

enter image description here

如果我想看視頻,這里有很多選擇:

enter image description here

如果想買(mǎi)筆記本電腦?在Amazon上搜索"筆記本電腦", 你會(huì)得到3811個(gè)結(jié)果;當(dāng)搜索"電飯鍋",你會(huì)得到超過(guò)1000的搜索結(jié)果。

enter image description here

在不久的將來(lái),你的選擇會(huì)越來(lái)越多:上百億的在線歌曲,各種各樣的視頻,已經(jīng)通過(guò)3D打印技術(shù)得到的個(gè)性化商品。

#p#

發(fā)現(xiàn)與自己相關(guān)的東西

以上所有的問(wèn)題在于尋找相關(guān)的東西。iTunes上所有的1100萬(wàn)首歌曲中,可能有相當(dāng)數(shù)量的歌曲是我真正喜歡的,但我怎么把它們找出來(lái)。今晚我 想在Netflix上看一部電影,我應(yīng)該看哪一部。我想通過(guò)P2P下載一部電影,可是我應(yīng)該下載哪一部。問(wèn)題還會(huì)變得更糟糕,因?yàn)槊糠昼姸加蠺B級(jí)別的內(nèi) 容(歌曲、視頻等)被上傳到網(wǎng)上。每分鐘都有100個(gè)新的文件在新聞組上發(fā)布。每分鐘都有時(shí)長(zhǎng)24小時(shí)的視頻上傳到Y(jié)ouTube。每小時(shí)有180本新書(shū) 出版。在現(xiàn)實(shí)世界里,每天有越來(lái)越多的東西可以選擇購(gòu)買(mǎi)。這使得在這些海量的可供選擇的東西中找出相關(guān)聯(lián)的東西變得越來(lái)越困難。

如果你是一個(gè)媒體制造商——比如說(shuō)Malaysia的Zee Avi(馬拉西亞的爵士才女),危險(xiǎn)不在于有人非法下載你的音樂(lè),而是你的音樂(lè)因?yàn)樾畔⑦^(guò)載變得無(wú)人問(wèn)津。

enter image description here

如何找到與自己相關(guān)的東西?

在很多年前的那個(gè)小鎮(zhèn)上,我們的朋友會(huì)幫我們找到相關(guān)的東西:如那批新進(jìn)的布料很對(duì)我的胃口;書(shū)店剛到的小說(shuō)、唱片店新到的33 1/3 LP很適合我的偏好。直到今天,我們依然依靠朋友的幫助來(lái)找到與我相關(guān)的東西。

同時(shí),專家會(huì)幫助我們找到與我們相關(guān)的東西。在過(guò)去,"消費(fèi)者報(bào)告"能評(píng)估所有在售的那20款洗衣機(jī),以及10 款電飯鍋,并作出推薦。如今亞馬遜提供了上幾百種電飯鍋,單個(gè)專家?guī)缀醪豢赡軐?duì)所有的這些電飯鍋進(jìn)行評(píng)價(jià)。在過(guò)去,Roger Ebert(美國(guó)影評(píng)人、劇本作家,普利策獎(jiǎng)獲得者)會(huì)評(píng)論幾乎所有的電影。而現(xiàn)如今全世界每年將出產(chǎn)大約25,000部電影。加上我們現(xiàn)在從各種渠道獲 得的視頻資源。Roger Ebert,或者任何一個(gè)專家,是不可能對(duì)我們所能看的所有的電影加以評(píng)論。

我們也可以用東西本身來(lái)幫助我們尋找相關(guān)的東西。例如,30年以來(lái),我一直在使用一臺(tái)Sears洗衣機(jī),我可能會(huì)打算再買(mǎi)一臺(tái)新款的Sears洗衣機(jī)。我喜歡披頭士樂(lè)隊(duì)的某張專輯——如果機(jī)會(huì)合適的話我還會(huì)再買(mǎi)一張他的專輯。

這些尋找相關(guān)東西的方法——朋友,專家,東西本身——在今天仍然適用,但是我們需要借助一些計(jì)算的方法來(lái)將這些方法遷移到擁有數(shù)以十億計(jì)的物品的二 十一世紀(jì)。在這本書(shū)里,我們將探索聚集用戶偏好、購(gòu)買(mǎi)歷史以及其他數(shù)據(jù)的模型和方法,利用社交網(wǎng)絡(luò)(好友)的力量來(lái)幫助我們挖掘相關(guān)聯(lián)的東西。同時(shí)我們還 將運(yùn)用事物本身的屬性。例如,我喜歡Phoenix樂(lè)隊(duì),推薦系統(tǒng)可能知道Phoenix樂(lè)隊(duì)的屬性——使用電子搖滾樂(lè)器、有朋克影響力、巧妙的運(yùn)用和 聲,系統(tǒng)因此會(huì)給我推薦具有類似屬性的樂(lè)隊(duì),例如:The Strokes樂(lè)隊(duì)。

enter image description here

不僅僅只是東西

數(shù)據(jù)挖掘不僅僅是推薦東西給我們,或者幫助商人出售更多商品。請(qǐng)參考下面這些例子:

100多年前的那個(gè)小鎮(zhèn)鎮(zhèn)長(zhǎng)熟知鎮(zhèn)上每一個(gè)人,當(dāng)他再次參加競(jìng)選的時(shí)候,他知道如何根據(jù)每個(gè)人的具體情況去說(shuō)服他們?yōu)樽约和镀保?/p>

——Martha,我知道你喜歡上學(xué),我會(huì)盡我的一切力量去為我們鎮(zhèn)再找一個(gè)老師。

——John,你的面包店最近怎么樣?我承諾你所在的城區(qū)將獲得更多的停車位

enter image description here

我的父親屬于United Auto Workers' Union。在競(jìng)選期間,我記得工會(huì)代表來(lái)到我們的家里提醒我父親把票投給某個(gè)候選人:

——你好,Syl,你的妻子和孩子還好吧?... 現(xiàn)在我來(lái)告訴你為什么應(yīng)該把票投給社會(huì)主義黨的市長(zhǎng)候選人Frank Zeidler...

隨著電視的崛起,這種個(gè)性化的政治信息轉(zhuǎn)變成了類似的廣告,但每個(gè)人得到了幾乎相同的信息。有一個(gè)很好的例子是著名的支持Lyndon Johnson的菊花電視廣告(一個(gè)年輕的小女孩正在掰著菊花花瓣,背景是一顆原子彈爆炸)。如今,競(jìng)選被小的利益和日益增長(zhǎng)的數(shù)據(jù)挖掘決定,個(gè)性化已經(jīng) 回歸。你對(duì)婦女權(quán)利很感興趣嗎?你很有可能收到關(guān)于這個(gè)話題的機(jī)器人電話。

那個(gè)小鎮(zhèn)的警長(zhǎng)對(duì)鎮(zhèn)上的搗蛋者非常清楚。如今,威脅被隱藏起來(lái)了,恐怖分子可能出現(xiàn)在任何地方。2001年10月11日,美國(guó)政府通過(guò)了USA Patriot Act(Uniting and Strengthening America by Providing Appropriate Tools Required to Intercept and Obstruct Terrorism的簡(jiǎn)稱)。該法案使得調(diào)查者能夠獲得各種來(lái)源的記錄,包括圖書(shū)館(我們讀了什么書(shū)?)、酒店(誰(shuí)待在哪兒?待了多長(zhǎng)時(shí)間?)、信用卡公 司、公路費(fèi)用登記記錄著我們?cè)?jīng)經(jīng)過(guò)哪些地方。在很大程度上,政府利用私有公司來(lái)保存那些與我們有關(guān)的數(shù)據(jù)。像Seisint公司就有幾乎我們所有人的數(shù) 據(jù):我們的照片、我們的住址、我們的車,我們的收入,我們的消費(fèi)行為,我們的朋友。Seisint采用超級(jí)計(jì)算機(jī)來(lái)進(jìn)行數(shù)據(jù)挖掘,用以對(duì)人們進(jìn)行預(yù)測(cè)。因 此他們的產(chǎn)品叫做... The Matrix

enter image description here

#p#

數(shù)據(jù)挖掘擴(kuò)展我們的能力

Stephen Baker在他的新書(shū)The Numerati是這樣開(kāi)頭的:

想象一下你坐在正在某個(gè)咖啡廳,或許還有點(diǎn)吵。在你右邊的桌子,一位年輕的女士正在筆記本電腦上敲打著。你轉(zhuǎn)過(guò)頭看了下她的屏幕。她正在上網(wǎng), 你就這么看著。 幾個(gè)小時(shí)過(guò)去了,她正在看一篇在線文章。你注意到她看了三篇關(guān)于中國(guó)的文章。她尋找了周五晚上準(zhǔn)備看的電影,并且看了功夫熊貓的預(yù)告片。她點(diǎn)擊了一個(gè)廣 告,廣告上承諾可以聯(lián)系到她的高中同學(xué)。你坐在那兒記著筆記。隨著每一分鐘過(guò)去,你都進(jìn)一步地了解這位女士。現(xiàn)在想象你可以同時(shí)關(guān)注1.5億人上網(wǎng)。

數(shù)據(jù)挖掘(Data Mining)關(guān)注于尋找數(shù)據(jù)中的模式。在小規(guī)模數(shù)據(jù)上,我們是構(gòu)建心理模型并發(fā)現(xiàn)模式的專家。例如,我想和我妻子今晚一起看一部電影,我對(duì)她的喜好有一 個(gè)心理模型,我知道她不喜歡暴力影片(因?yàn)樗幌矚g那一季的《第九街區(qū)》);她喜歡Charlie Kaufman的電影。我可以使用這個(gè)電影偏好相關(guān)的心理模型來(lái)預(yù)測(cè)她可能喜歡或者不喜歡的電影。

enter image description here

一個(gè)從歐洲遠(yuǎn)道而來(lái)的朋友來(lái)訪。我知道她是一個(gè)素食主義者,利用這一信息,我可以預(yù)測(cè)她不會(huì)喜歡當(dāng)?shù)氐呐殴恰H藗兒苌瞄L(zhǎng)構(gòu)建模型和作出預(yù)測(cè)。數(shù)據(jù)挖 掘擴(kuò)大了這個(gè)能力并且使我們能夠處理大量的信息——比如上面書(shū)中引用的1.5億人。數(shù)據(jù)挖掘技術(shù)使得Pandora可以根據(jù)個(gè)人的音樂(lè)偏好來(lái)構(gòu)建個(gè)性化的 音樂(lè)電臺(tái),也使得Netflix能為你提供個(gè)性化的電影推薦。

TB級(jí)的數(shù)據(jù)挖掘不是那些來(lái)自星級(jí)爭(zhēng)霸II的東西

20世紀(jì)末,100萬(wàn)字的數(shù)據(jù)集被認(rèn)為是很大。20世紀(jì)90年代,當(dāng)我還是個(gè)研究生的時(shí)候(是的,我很老。),我作為一個(gè)程序員在《Greek New Testament》研究了一年,它僅僅只有20w個(gè)詞,但是數(shù)據(jù)分析時(shí)發(fā)現(xiàn),這數(shù)據(jù)還是太大以至于不能直接載入內(nèi)存,因此不得不將結(jié)果拆解到可以在后臺(tái) 處理的磁帶上。

如今,對(duì)TB級(jí)的信息量進(jìn)行數(shù)據(jù)挖掘已經(jīng)非常常見(jiàn)了。谷歌就有超過(guò)5PB(5000TB)的網(wǎng)頁(yè)數(shù)據(jù)。2006年,谷歌在研究社區(qū)發(fā)布了一個(gè)基于億 萬(wàn)字?jǐn)?shù)的數(shù)據(jù)集。國(guó)家安全局(NSA)有億萬(wàn)個(gè)通話記錄。Acxiom是一家收集美國(guó)2億成年人信息(信用卡消費(fèi)、通話記錄、醫(yī)療記錄、汽車注冊(cè)等)的公 司,他收集了超過(guò)1PB的數(shù)據(jù)。

enter image description here

Robert O'Harrow, Jr. ——《No Place to Hide》的作者,他試圖幫助我們理解多少信息是1PB,他說(shuō)1PB就相當(dāng)于堆放了50000英里的King James Bible。我經(jīng)常開(kāi)車從New Mexico到Virginia,那是2000英里。當(dāng)我試著想象一路上堆滿的圣經(jīng),看起來(lái)像一個(gè)無(wú)法想象的數(shù)據(jù)。

enter image description here

國(guó)會(huì)的圖書(shū)館有大約20TB的文本。你可以將整個(gè)國(guó)會(huì)圖書(shū)館的文本存放在一個(gè)幾千美元就可以買(mǎi)到的硬盤(pán)上!作為對(duì)比,Walmart有超過(guò)570TB的數(shù)據(jù),所有的這些數(shù)據(jù)并非僅僅存在哪里——它被不停地挖掘,構(gòu)建新的關(guān)聯(lián)關(guān)系,挖掘新的模式。這就是TB級(jí)的數(shù)據(jù)挖掘。

在這邊書(shū)中,我們將處理一些小的數(shù)據(jù)集,這是一件很幸福的事。我們不想讓我們的算法跑上一個(gè)星期以后,卻發(fā)現(xiàn)我們的算法出現(xiàn)邏輯錯(cuò)誤。我們用到的最大的數(shù)據(jù)集在100MB以下,最小的也就幾十行數(shù)據(jù)。

 

原文鏈接:http://www.ituring.com.cn/article/56258

責(zé)任編輯:陳四芳 來(lái)源: 圖靈社區(qū)
相關(guān)推薦

2013-10-15 15:17:47

程序員數(shù)據(jù)挖掘

2014-01-13 11:22:28

storm

2015-12-30 09:25:47

編程故事printf

2011-07-19 17:25:14

jQuery MobiAndroid

2012-02-09 10:39:37

AndroidWeb App官方文檔

2023-08-03 13:56:53

配置文件容器

2023-05-24 16:13:31

ChatGPT神經(jīng)網(wǎng)絡(luò)

2011-07-20 10:27:18

jQuery Mobi手機(jī)新聞瀏覽器

2018-04-23 11:00:06

程序員養(yǎng)生健康

2014-08-01 10:18:16

.Netdump

2009-06-22 09:06:57

程序員技術(shù)升級(jí)

2020-08-06 13:05:10

程序員網(wǎng)頁(yè)數(shù)據(jù)

2015-07-28 17:58:22

程序員指南

2013-07-04 13:50:14

2010-12-07 10:40:27

軟考系統(tǒng)架構(gòu)設(shè)計(jì)師

2012-02-01 09:30:54

HTML 5

2022-02-16 18:21:33

程序員跳槽架構(gòu)

2011-08-12 11:32:32

2011-08-12 11:32:32

2018-05-28 21:38:10

程序員住房女程序員
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久草网在线视频 | 久久aⅴ乱码一区二区三区 亚洲国产成人精品久久久国产成人一区 | 国产精品7777777 | 99久久久久久久久 | 精品99在线 | 久久精品国产亚洲一区二区 | 亚洲一区二区三区免费观看 | 羞羞视频网站免费观看 | 欧美精品二区三区 | 婷婷去俺也去 | 久久久www成人免费无遮挡大片 | 国产日韩一区二区三免费高清 | 久久久精品一区二区 | 91视频一区| 久久精品黄色 | 91精品国产美女在线观看 | 99视频在线免费观看 | 永久av | 日韩国产中文字幕 | 超碰在线人 | 成人在线免费网站 | 国产欧美一区二区精品忘忧草 | 国产精品日韩欧美一区二区三区 | 国产精品99久久久久久久久久久久 | 伊人网一区 | 天天拍夜夜爽 | 久久久一区二区三区四区 | 在线观看视频亚洲 | 最新国产精品视频 | 99久久视频 | 国产不卡在线观看 | 国产ts人妖一区二区三区 | 国产综合久久 | 亚洲精视频 | www.亚洲国产精品 | 国产电影一区二区 | www.日本在线观看 | 一区二区三区高清 | 日韩欧美国产电影 | 亚洲成人av一区二区 | 亚洲一区二区三区在线免费 |