10個2017的預測:數據科學、機器學習和物聯網
近日, Vincent Granville在Data Science Central上撰文對2017的數據科學、機器學習和物聯網進行了預測。
以下為譯文
又到了分享對2017年的預言的時候了,這里拋磚引玉,也希望各位發表自己的觀點。
1. 數據科學和機器學習將變得更為主流,特別在以下領域:能源業、金融業(銀行、保險)、農業(精耕)、運輸業、城市規劃、醫療保健(定制治療),甚至是政府方面。
2. 某些數據科學的門外漢想要創建合法的,有關如何分析數據、算法怎樣運轉的體系,并打算強制公開算法的秘訣。我相信他們會失敗的,奧巴馬醫改就是一個例子,其中利用的預測算法,忽略了年齡性別來計算溢價,導致了人們需要承擔更高的保費。
3. 傳感數據崛起。也就是說,物聯網將帶來數據膨脹,但數據質量、數據相關性及數據安全仍是至關重要的。
4. 隨著物聯網的崛起,依賴于人工智能、深度學習和自動數據科學的機器或設備間通信的算法 ,更多的過程將實現自動化(如駕駛、醫療診斷和治療)。我最近也在編寫文章來描述機器學習、物聯網、人工智能、深度學習和數據科學之間的差異。你可以在DSC進行注冊,防止錯過該文。
5. 人工智能、物聯網、數據科學、機器學習、深度學習和運籌學之間的界限將變得模糊。而統計工程會越來越多地出現在應用程序、機器學習、人工智能和數據科學領域。
6. 許多系統仍然無法正常運轉。其解決方法在于人而不是算法。我的文章《為何如此多的機器學習實現都以失敗告終》中有提及,一個典型的例子就是“谷歌分析”。谷歌分析不能捕捉到大量明顯且又基本的機械交通流,而這種任務對于人來說,根本不需要任何統計和數據科學知識來過濾或攔截。雖然人們發明了基本的方案來解決這些問題,但它卻有增無減。虛假評論、新聞,推特上未檢測出的仇恨言論,谷歌搜索上未檢測到的剽竊行為,都屬于同一類別。最終,它為新玩家留下了可以進入和構建實際工作系統的空間。
7. 對公共數據和公共新聞的依賴將會面臨更仔細的審查。有人說預測選舉的失敗是數據科學的失敗。但在我看來這是一種不同類型的失敗,它未能意識到媒體的偏見(他們發布的都符合他們自身議程預測),甚至那些做調查的都是有偏差的(充滿謊言)。同時它也沒有意識到選舉中的高波動性以及日常的巨大變化。任何能夠計算出包含歷史數據的良好的置信區間的人,都認為這是不可靠的預測結果。最后,我一直都認為獲勝者最擅長玩把戲,包括操縱黑客與賄賂媒體。
8. 越來越多的數據清理、預處理和探索性數據分析將變得自動化,我們也將面對更多的非結構化數據,當然,也會用一些方法來使它們變得結構化。多個算法和模型逐漸混合在一起,來提供效果最好的模式識別和預測系統,以提高精度。
9. 在領先的從業者帶領的大學課程的引導下,數據科學教育將不斷發展,通過數據科學營找工作的人會更少。許多這種類型的訓練營不會培訓你成為數據科學家,而是讓你變成一個只知曉經典的、基本的、甚至過時且危險的統計知識的Python/R/SQL碼農。因此,數據營不得不改善,否則將冒成為另一種鳳凰城大學的風險。
10. 對有關數據的基礎建設的攻擊將會從竊取或清除轉變為修改數據。如果安全漏洞沒有被修繕,某些攻擊將從物聯網設備開始。