成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學經驗談:這三點你在書里找不到

大數據
如果你還沒有聽說過數據科學,那一定是我瘋了。各種培訓、崗位、學校課程像雨后春筍一樣遍地開花。每次我看到這些東西的樣品時,我總是格外關注他們學習算法的細節。

如果你還沒有聽說過數據科學,那一定是我瘋了。各種培訓、崗位、學校課程像雨后春筍一樣遍地開花。每次我看到這些東西的樣品時,我總是格外關注他們學習算法的細節。當然,了解回歸、深度學習的工作原理是件很酷的事情,但是當你真正動手處理數據的時候你就會發現,可能有些其他的事情也同樣重要,甚至更重要。

我真的不是在說這些課程的壞話。我在大學教了很多年的機器學習,教的東西始終都圍繞著那些非常具體的算法模型。你可能非常了解支持向量機,高斯混合模型, K-均值聚類等等,但是只有當你開始準備碩士論文的時候,你才真的學會了如何正確的處理數據。

什么樣的處理才算是正確的處理呢?為了目的不擇手段?只要得到好的預測性能就萬事大吉?事實確實如此,但是這么做的關鍵在于,你能確保未知數據也能有個不錯的表現。就像我經常說的那樣,你很容易就會受到它的蒙蔽,在分析訓練結果的時候,輕易地就相信了你選擇的方法。

因此,在這里我要分享我的三點經驗,因為我發現書里很少會提到這些,但是他們真的很重要。

1.模型評價是關鍵

數據分析/機器學習/數據科學(或任何你能想到的領域)的主要目標,就是建立一個系統,要求它在預測未知數據上有良好的表現。區分監督學習(像分類)和無監督學習(如聚合)其實沒有太大的意義,因為無論如何你總會找到辦法來構建和設計你的數據集。方法行不行***還是得看它在未知數據上的表現,你得保證它能得出同你過去的訓練集一樣的結果。

初學者最常犯一個錯誤就是看到已知數據的表現,就想當然的認為未知數據也會一樣。通常你會發現,現實是很骨感的。這里我們就只說監督學習,任務就是根據你的輸入預測輸出,例如把電子郵件分成垃圾郵件和非垃圾郵件。

如果你只考慮訓練數據,通過讓機器記住一切,很輕松的就能得到***的預測結果(除非這些數據自相矛盾)。這并不是什么新鮮事兒,人類自己就是這樣的。還記得你學外語背單詞的苦逼時光么,你必須檢查單詞字母的順序,因為你的大腦需要按正確的順序記住他們。

機器在存儲和檢索大量數據上的優勢是人類拍馬不及的。但這也帶來了過擬合和泛化能力差的問題。

所以,一個好的評價方法是模擬未知數據的影響來分割數據,一部分用來訓練,一部分用來檢測效果。通常,用較大的訓練集建模,然后用小的那部分進行預測,經過多次迭代來得到一個較穩定的模型。這個過程就是我們常說的交叉驗證。

[[148057]]

為了模擬未知數據的表現,把數據集分為兩個部分,一部分用于訓練,一部分用于預測。

就算我們這么做了,還是很有可能出問題,特別是在數據非平穩的時候,數據的潛在分布會隨著時間變來變去。利用真實數據預測時經常會碰到這種情況,同樣是銷售數據,六月和七月的就可能差別巨大。

還有數據點間的相關性,如果你知道了一個數據點那么你肯定對另一個數據點也有了一些了解。好比股票價格,他們通常不會在兩天之間任意的大幅波動,因此如果你胡亂的拆分訓練/預測數據,就會破壞這種相關性。

每當出現這種情況,你得到的結果就會過于樂觀,而你的模型似乎不打算在現實應用中也這么給你面子。最糟糕的情況就是,你千辛萬苦終于說服人們認可你的方法,結果下水一試,它當掉了……

所以學習如何正確的進行模型評價是關鍵!

2.特征提取是天

學習一種新的算法感覺總是很棒,但現實是,最復雜的算法執行起來和那些老辦法 幾乎沒什么兩樣,真正的區別在于原始數據的特征學習。

現在的模型功能看起來非常強大,隨隨便便就能處理成千上萬的特征和數據點,其 實本質上并沒聰明到哪里。特別是線性模型(像logistic回歸或線性支持向量機),就是個傻乎乎的計算器。

這些模型確實很擅長在數據充足的情況下識別信息的特征,但是如果信息不充足,或者不能按線性組合的特征來表示,那基本就沒什么可玩了。同樣這些模型也不能通過“洞察”自行簡化數據。

換句話說,你可以通過尋找合適的特征,來大量簡化數據。坦白來講,如果你能為想做預測的功能簡化掉所有特征,那還有什么需要學習的呢?!這就是多么強大的特征提取啊!

這意味著兩件事情:首先,你應該確保你確實掌握了這些幾乎相同的方法中的一種,并且始終不拋棄它。你真的不需要同時掌握邏輯回歸和線性支持向量機,你只要選擇一個就夠了。這些方法幾乎都是相似的,關鍵的不同就在于底層模型。深度學習還有些特別的東西,但線性模型在表現能力上幾乎都是相同的。雖然,訓練時間、解決方案的稀疏度等可能會有些不同,但在大多數情況下你會得到相同的預測性能。

其次,你應該了解所有的特征工程。這是一門藝術,不幸的是,幾乎所有的教科書都沒有涵蓋這一點,因為關于它的理論太少了。它的常規化就像我們的霧霾一樣,還有很長的路要走。有時,特征需要取對數。每當降低一定的自由度,就是擺脫那些與預測任務不相關的數據,可以顯著降低你所需的訓練集數量。

有些情況下這種類型的轉化會不可思議的簡單。例如,如果你正在做手寫字體識別,你就會發現有沒有一個識別度高的顏色并不重要,你只要有一個背景和前景就OK了。

我知道,教科書往往將算法模型描述的異常強大,好像只要你把數據扔給模型,他們就會把一些都做了。從理論和***的數據源上看它可能是對的。但很遺憾,我們的時間和數據都是有限的,所以尋找包含信息大的特征是絕對有必要的。

3.最耗神的是模型選擇,而不是數據集的大小

在大數據時代,很多你不想被人知道的事情都被你的主內存以數據集的方式***的記錄下來。你的模型可能不需要花太多時間就能跑完這些數據,但是卻要花費非常多的時間從原始數據中提取特征,利用交叉驗證的方法來比較不同學習模型的渠道和參數。

數據科學

為了選擇合適的模型,你需要大量的組合參數,再利用備份數據來評估它的表現。

問題來了,組合參數的爆發式增長。如果你只有兩個參數,可能只需要花費1分鐘就能完成訓練,并且得到性能的評估結果(用合適的評估像我上面說的那樣)。但如果每個參數有5個候選值,那就需要執行5倍的交叉驗證(把數據集分成5份,每個測試都跑5遍,在每一次迭代中用不同的數據測試),這意味著你需要把上面的步驟重復125次去找到一個好的模型,你要等待的就不是1分鐘,而是兩小時。

好消息是,在多參數的情況下你可以并行操作,因為每個部分都是獨立運行的。這 種對每個獨立數據集進行相同操作(分割,提取,轉換等)的過程,被稱為“密集并行”(沒錯,這是一個技術術語)。

這里的壞消息大多針對大數據,因為這些都意味著很少需要復雜模型的可擴展實現。在大多數情況下,僅僅通過對內存中的數據執行相同的非分布式算法,再把這種方法并行化就足夠了。

當然,像用于TB級日志數據的廣告優化和面向百萬用戶推薦的 learning global models這樣的應用也是存在的,但是最常見的用例都是這里描述的類型。

***,擁有很多數據并不意味著你都需要他們。***的問題在于底層學習的復雜性。如果這個問題能被一個簡單的模型解決,你就不需要用這么多的數據來檢驗模型,也許一個隨機的數據子集就可以解決問題了。像我上面說的,一個好的特征表現能幫助你急劇的降低所需要數據點的量。

綜上所述

總之,知道如何正確的評估,對降低你的模型在面對未知數據時的風險是非常有幫助的。掌握合適的特征提取方法,可能是幫助你取得一個好的結果的***方法,***,并沒有那么多大數據,通過分布式計算可以降低訓練時間。

責任編輯:李英杰 來源: 36大數據
相關推薦

2011-09-09 09:50:40

Oracle

2017-01-20 09:43:12

日志告警挖掘

2019-03-20 14:26:34

人工智能機器人AI

2012-03-12 10:51:41

數據中心災難備份

2017-10-30 14:51:44

APP網頁窗口

2024-05-28 07:01:29

2019-01-23 09:36:02

數據科學項目數據科學數據科學家

2009-09-14 15:04:44

2012-05-21 09:27:53

2019-03-01 10:12:54

2010-06-24 21:43:20

2020-07-23 09:44:50

大數據疫情

2010-08-17 13:23:49

2009-06-29 15:39:53

Servlet和JSPServlet引擎

2012-07-13 14:25:59

2015-09-16 10:13:16

游戲性能

2011-06-21 16:26:19

SEO內部優化

2011-08-15 10:27:48

2014-03-13 09:20:38

jQueryAngularJs

2013-08-02 11:23:45

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本黄色免费视频 | 亚洲精品电影网在线观看 | 中文字幕第5页 | 久热国产精品视频 | 国产日日操 | 久久久久国产精品一区 | 中文字幕在线精品 | 毛片入口 | 91最新视频 | 亚洲一区二区在线电影 | 在线观看国产视频 | www.国产日本 | 99精品在线免费观看 | 亚洲午夜精品 | 日韩欧美一区二区三区免费观看 | 国产精品一区久久久 | 99re免费 | 精品国产区 | 伊人手机在线视频 | 亚洲欧美一区二区三区国产精品 | www.久久艹 | 99亚洲国产精品 | 久久躁日日躁aaaaxxxx | 亚洲精品乱码久久久久久按摩 | 搞av.com | 拍拍无遮挡人做人爱视频免费观看 | 天天综合久久网 | gogo肉体亚洲高清在线视 | 免费高潮视频95在线观看网站 | 天堂色综合 | 国产精品久久久久久婷婷天堂 | 99精品久久久国产一区二区三 | 国产一级毛片精品完整视频版 | www.日本在线观看 | 伊人色综合久久天天五月婷 | 国产你懂的在线观看 | 婷婷色在线播放 | 久久成人一区 | 天天操天天射综合网 | 久久久久成人精品免费播放动漫 | 网黄在线|