成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

為何企業無法從數據科學中真正獲得價值?

大數據
當今企業擁有越來越多的數據,但這些數據并沒有完全被轉化成可操作的信息。在過去的幾年里,我和我的MIT調查小組一直在尋找一個基本問題的答案:如何讓企業通過機器學習,將蘊藏于其數據儲存內的潛能全部釋放出來。

當今企業擁有越來越多的數據,但這些數據并沒有完全被轉化成可操作的信息。在過去的幾年里,我和我的MIT調查小組一直在尋找一個基本問題的答案:如何讓企業通過機器學習,將蘊藏于其數據儲存內的潛能全部釋放出來。

為何企業無法從數據科學中真正獲得價值?

當我們與不同行業的合作伙伴一起設計基于機器學習的解決方案時,我們發現已有的解決方案通常情況下是不適合的,這是為什么呢?

首先,每當我們問到機器學習專家們(專長于預測模型訓練和測試的數據科學家們),在工作中最困難的部分,被一次次提及的答案是——“數據雜亂無章”。一開始,從字面意思上理解,我們認為這是一個經典的數據問題——數據缺失或者數據庫之間缺乏一致性。隨著我們的進一步挖掘,我們意識到該問題和經典的數據問題略有不同,兩者面臨的數據形式有一定的區別。企業的原始數據(Raw data),甚至是干凈數據(Cleandata:在Raw data的基礎上,進一步處理后得到的數據)量多且復雜,即使是專家,***眼也很難理解這些數據。因為這樣的數據有太多的數據表和字段,同時數據的粒度又非常高(例如,在線點擊流每一次點擊都會生成新數據、傳感器每秒會進行125次的數據收集)。而機器學習專家們通常習慣使用聚合過后的,有用的數據,例如一個用戶訪問過的網站數目,而不是用戶在某個網站上的行為數據表。

與此同時,我們經常聽到商業專家抱怨“我們有大量的數據,但沒有通過這些數據做成任何事”。更深入的調查顯示這種說法也不完全對。而這種挫敗感主要來源于兩個方面。

一方面是由于時間問題。由于機器學習中,理解、規劃及處理數據等一系列過程所需要花費的時間,機器學習專家常常更加關注流程的后面部分——嘗試不同的模型或者在問題制定完成后,調整模型參數,而不是針對不同的商業問題制定新的預測模型。因此,當商業專家想到某個新的問題時,機器學習專家無法做到總是及時跟上他們的步伐。

另一方面,經常來說,機器學習專家并沒有圍繞著“產生商業價值”,這一建模的最終目標,來展開工作。在大部分情況下,預測模型旨在提高效率、增加收益或者減少支出。但實際上,建立模型的工作者卻很少問這樣的問題“這個預測模型提供的價值是什么?我們又該如何去量化其價值?”。思考這一價值導向的問題常常會改變最初的問題規劃(problem formulation),通常情況下比建模后期再進行過程調整更加有用。最近在一個機器學習愛好者小組中,我向約150名觀眾進行了調查,當問到“有多人建立過機器學習模型?”大約有三分之一的人舉了手。緊接著,當我問到“有多少人真正應用自己建立的模型產生價值,并量化模型產出價值?”時,所有人的手都放下了。

換句話說,機器學習專家更傾向于將時間花在構建模型上,而不是處理海量數據集或者將商業問題轉化為預測問題。無獨有偶,當前的技術環境,無論是商業還是學術,關注點都在實現更加復雜的模型(LVM潛變量模型)、模型學習算法(分布式計算),或者微調(貝葉斯優化)。本質上,這些都屬于數據科學項目后期的過程。然而,按照我們的經驗,我們認為這些關注點并不是最恰當的。

如果公司想要從數據中獲得價值,需要將重點放在加速對數據的人為理解,在短時間內調整可構建的模型問題數量以及預測這些模型所的成效。在與公司的合作中,我們得出結論,想要通過機器學習帶來真正的改變,需要將重點放在以下四個方面:

堅持簡單的模型

簡單的模型,例如邏輯回歸、基于隨機森林或者決策樹的模型。這些模型已經足夠解決手頭上的任務。關鍵是減少數據采集時間,盡早進行***個簡單預測模型的開發。

探索更多的問題

數據科學家需要有能夠快速而簡單的定義和探索多個預測模型的能力。公司應該探索更多的商業問題,為每一個商業問題建立一個簡單的預測模型,并評估其價值,而不是用超級復雜的機器學習模型去探索僅僅一個商業問題。

從數據樣本中而不是全部的數據中學習

不要過多的關注如何使用分布式計算讓任何一個處理模型都能進行大數據處理,而是在能夠從子樣本數據中導出相似結論的技術上進行投資。規避大量計算資源的使用,將會給予我們更多的空間去探索更多的假設。

關注自動化

為減少***個預測模型產生的時間和加快探索的速度,公司必須能夠自動化處理在正常情況下需要人工完成的過程。通過在不同數據問題上的反復探索,我們發現很多時候都在使用相似的數據處理技術,無論是將數據轉化為有用的聚合數據,還是為預測模型準備數據。是時候流水線化這些任務,開發算法和軟件,使這些過程能夠自動化完成。

專注于上述四個目標,準確理解數據科學家如何與數據交互,以及項目瓶頸之所在,幫助我們成功啟動了MIT的“TheHuman-Data Interaction Project”項目。

我們的目標是快速探索預測模型,并將這些模型應用于解決真實企業中的實際問題。這些模型簡單,同時自動化讓非專業的用戶也能夠在幾個小時內建立成百甚至上千個預測模型。而這在今天,通常需要花費專家們一整個月的時間才能做到。

責任編輯:未麗燕 來源: 紐約數據科學學院
相關推薦

2017-01-05 19:52:33

大數據企業應用

2022-11-07 11:16:30

大數據數據倉庫Hadoop

2018-03-16 12:26:27

遷移云計算企業

2022-12-30 11:42:17

物聯網IoT

2022-09-08 14:52:29

圖數據庫Neo4j

2014-04-28 09:37:52

2015-04-02 10:17:14

安全信息事件管理

2021-01-15 14:37:38

大數據數據中心新基建

2013-06-21 09:47:15

2016-10-17 15:12:36

2011-06-22 09:51:21

云計算SOA

2014-11-04 14:24:18

用友優普

2021-01-15 17:10:55

智慧城市數據悉尼

2015-08-19 13:42:30

2019-12-16 14:11:14

數據科學數據集數據分析

2020-10-14 10:11:17

云計算IT技術

2013-04-01 11:14:56

IT大數據網絡信息化

2023-05-17 19:37:53

2019-07-12 12:50:31

數據科學數據轉化分析

2021-10-19 16:10:46

Power BI數據分析工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人日韩 | av在线免费观看网站 | 最新中文字幕第一页视频 | 亚洲三区在线观看 | 精品一区二区在线观看 | 欧美高清dvd| 蜜桃综合在线 | 三级在线视频 | 亚洲精品一区二 | 综合国产第二页 | 在线中文字幕日韩 | 午夜久久| 97色在线视频 | 亚洲美女一区二区三区 | 91麻豆精品国产91久久久更新资源速度超快 | 一级片av| 久久精品国产一区老色匹 | 久久综合久久久 | 精品久久久久久亚洲综合网站 | 免费欧美视频 | 九九九久久国产免费 | 亚洲一视频 | 91精品国模一区二区三区 | 啪一啪 | 一级做a爰片性色毛片16 | 激情自拍偷拍 | 国产精品久久久久久久毛片 | 国产精品污www一区二区三区 | 美女三区 | 精品国产视频在线观看 | 成人性生交a做片 | 日本人爽p大片免费看 | 欧美成视频在线观看 | av一区二区三区四区 | 日韩爱爱网站 | 91麻豆精品国产91久久久更新资源速度超快 | 国产传媒在线播放 | 亚洲在线一区二区 | 91九色在线观看 | 免费a大片 | 一区二区三区欧美在线观看 |