成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

第22期百度技術沙龍總結:數據挖掘的價值

原創
系統
本周六下午的百度技術沙龍將主題定為《海量用戶的數據挖掘與行為分析》,兩個主講人分別來自百度與人人網,話題分別專注于搜索引擎算法的評估以及社交網絡推薦算法的評估。數據挖掘本身其實是個相當古老的學科,在科研領域一直是必備技能之一。

【51CTO報道】一群傳統行業的從業者們和一群互聯網人聚在一起,討論的不再是企業信息化的問題,而是數據挖掘的話題。

2012年1月7日下午的百度技術沙龍將主題定為《海量用戶的數據挖掘與行為分析》,兩個主講人分別來自百度與人人網,話題分別專注于搜索引擎算法的評估以及社交網絡推薦算法的評估。

相對于軟件開發和服務運維等“傳統”IT技術而言,數據挖掘是一個完全不同的學科。百度技術沙龍的兩個分享者的話題,一個偏重于方法論,一個偏重統計學,令當天的不少聽眾感覺有一些理解上的門檻;但數據挖掘本身其實是個相當古老的學科,在科研領域一直是必備技能之一。科研領域之外,數據挖掘早期主要應用于金融行業的客戶需求預測、保險行業的客戶風險分析等情景,因為金融行業在當時是數據積累最為密集、對數據需求最高的行業。

隨著互聯網服務規模的擴大,有心人為了改進服務、增強競爭力以及其他一些原因而早早開始有意識的跟蹤搜集用戶使用服務過程中的一些數據。在這個過程中,越來越多的泛對象服務轉變成為有針對性的個性化服務。最容易理解的場景是電子商務:個性化推薦服務目前已經可以媲美很多商場里的導購小姐。網絡營銷與廣告系統的場景需求與電子商務的情景類似。傳統行業方面也有很多潛在的需求,比如醫療方面,不同個體的病史數據對于其下一步治療應該采取哪些方案有極為重大的參考意義;傳統的商場,需要評估柜臺貨架如何擺放能夠達到最高的效率;制造業領域,需要評估怎樣的材料、怎樣的環境和怎樣的流程能夠更高效的制造質量更好的產品。

任何領域的數據挖掘都面臨兩大問題:一,你并不完全知道應該去收集哪些數據,而你能夠收集的數據終究是有限的;二,你通過數據挖掘分析得出了一些結論,但是這個結論并不容易證實或證偽。在實驗結果可靠性高的領域,這個問題相對容易,比如你想知道一個鉛球掉到地上能砸出多大個坑,你多少知道應該去測量鉛球的尺寸和質量,它下落的高度和角度等參數,并通過實踐來推算;然而在大多數場景,需要考慮的參數是很多的,而設計再精良的實驗也只能給你一個不怎么精確的結論。

[[55536]]
百度網頁搜索部 彭滔 

作為搜索引擎,百度的目的是要讓搜索結果的呈現次序更好。何謂更好?這是設計任何算法之前必須考慮好的問題。“好”必須變成一個可以量化的指標。來自百度網頁搜索部的彭滔就跟我們介紹了他們的經驗。在百度搜索的發展歷程中,“好”的評估方式大致被分為三個階段。彭滔取了一個query用作例子:“給我一片關于春天的作文,要長的,快點”。這個例子的目的性很強,評判的主要標準在于解決特定問題。

第一個階段,是由PM來給搜索排序中的第一頁的結果打分,0分是最差,4分是最好。如果4分結果靠前,這個算法在這個query上就被定義為一個較好的算法:

第二個階段是第一個階段的多人版,即抽取較多的query,從外包公司請來一大批兼職人員(evaluator)來評分,然后取平均值。對于正確率高的evaluator給予獎勵,即可以認領更多的任務。

第三個階段徹底改變了“好”的定義:直接在線上環境進行AB testing,根據首次點擊的上升/下降情況,以及用戶翻頁的次數等指標來評估。為了減少隨機性對實驗結果的影響,還采取了空轉、反轉等步驟來加固實驗。

究竟百度這樣的評估方法是否給我們帶來了一個越來越好的搜索引擎?相信每個用戶心里,都會對“好的搜索引擎”有不同的定義;而由于每個用戶的query不同,結論的偏差肯定是有的。最后,彭滔也提出了對個性化搜索的展望,相信這個領域仍有非常大的挖掘空間。

人人網是一個社交網站。本次進行分享的是人人網Social Graph的算法工程師張葉銀,他的目的則是要讓每個用戶主頁那有限的幾十個推薦位上出現盡可能多的讓用戶感興趣的朋友、話題、游戲等內容。

社會化網絡就好比一個社會一般。這個推薦系統就好比在海淀區這么大一塊地方上方出現一個爪子,這個爪子從什么地方拎起一個人放在我的面前,它要如何知道我會對這個人感興趣?他和我有共同的朋友嗎?他和我有共同的話題嗎?他和我喜歡同一個明星或商品嗎?

張葉銀的分享中,列出了一些通用的量化指標:年齡,學校,地域,性別;訪問了誰的個人主頁、相冊,給誰分享過信息,給誰留言或評論過……很顯然,這些指標的數量很多,而且一眼看上去很難評判哪些是更加重要的指標。所以,推薦算法的設計可以說是一個漫長的試錯過程:

而目前可以依賴的實驗結果,就是用戶最終在這幾十個推薦位中接受了多少個推薦。

所有這些數據挖掘的情景,算法的改良,大多不會是一個突變的過程,很可能只是精確度提升了0.1%甚至更低。然而對于百度和人人網的規模,0.1%的改良是值得去做的:數據的規模決定了數據挖掘的價值。隨著大數據時代來臨,數據挖掘的價值也將水漲船高,這是一個極好的機會。如果你對數據挖掘感興趣,那么建議你打好算法和統計學的基本功,多多關注數據挖掘的各種需求場景,好趕上這次發展的大潮。

有關百度技術沙龍(官方網站地址):“暢想•交流•爭鳴•聚會”是百度技術沙龍的宗旨。 百度技術沙龍是由百度與InfoQ中文站定期組織的線下技術交流活動。目的是讓中高端技術人員有一個相對自由的思想交流和交友溝通的平臺。

責任編輯:yangsai 來源: 51CTO.com
相關推薦

2020-06-08 11:05:12

技術周刊

2020-12-31 20:32:47

AI

2013-12-30 11:15:23

2012-07-16 14:52:39

51CTO技術沙龍

2018-08-10 15:54:43

大數據

2013-01-24 10:20:28

桌面運維

2013-07-22 13:57:28

百度開發

2012-03-23 12:12:37

百度開發者大會

2020-04-29 16:04:21

網絡安全網絡安全技術周刊

2019-06-03 22:57:50

百度物聯網SQL

2012-01-11 13:10:47

百度沙龍

2014-01-08 13:02:34

百度輕應用沙龍

2013-11-03 23:42:02

SiteApp網站移動化

2014-07-25 17:12:39

數據庫WOT2014MongoDB

2013-01-31 09:15:08

偷拍插件美杜莎

2013-08-22 17:08:50

2012-05-23 09:35:55

技術沙龍

2011-06-21 17:13:07

SEO百度快照

2011-09-06 14:59:32

開發技術周刊

2015-09-25 16:41:03

APIStore百度技術革新
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩欧美不卡 | 色免费看| 91视频88av | 超碰97人人人人人蜜桃 | 黑人巨大精品欧美一区二区免费 | 国精产品一品二品国精在线观看 | 色婷婷av99xx | 99re免费 | 中文字幕一区二区三区四区五区 | 日韩一区二区三区在线播放 | 国产a区| 国产成人综合在线 | 国产又色又爽又黄又免费 | 亚洲成人网在线 | 欧区一欧区二欧区三免费 | 久久久久久久久久久一区二区 | 国产精品99久久久精品免费观看 | 国产日韩一区二区 | 青青草久久 | 蜜桃视频在线观看免费视频网站www | 国产ts人妖另类 | 成人精品久久久 | 欧美黑人体内she精在线观看 | 黄色一级大片在线免费看产 | 国产黄色av网站 | 免费黄色在线观看 | 欧美一区在线视频 | 国产精品一区二区在线 | 欧美9999| 国产午夜久久 | 国产精品99| 伊人一二三 | 亚洲一区二区三区四区五区中文 | 日韩在线资源 | 免费观看一级特黄欧美大片 | 亚洲一区二区三区视频在线 | 亚洲国产一区二区三区, | 午夜精品久久久久久久久久久久久 | 国产日产久久高清欧美一区 | 在线一区二区三区 | 九九亚洲精品 |