成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

我的數據科學成果為什么無法商業化?

大數據 數據分析
在數據科學的實踐應用中,有些工作成果可以獲得數十億級的商業回報,而絕大多數的工作成果卻并沒有達到預期的效果。本文中探討了數據科學工作成果不盡如人意的四個可能原因。

數據科學

大數據文摘出品

編譯:Charlene、涂世文、YYY

在數據科學的實踐應用中,有些工作成果可以獲得數十億級的商業回報,而絕大多數的工作成果卻并沒有達到預期的效果。本文作者是Nick Elprin,Domino Data Lab公司的創始人兼CEO,擁有哈佛大學計算機碩士學位。他在文中探討了數據科學工作成果不盡如人意的四個可能原因。

當前,許多公司都面臨著這樣的困境:把數據科學的工作成果真正轉化為商業價值。

據一項涉及250位數據科學團隊主管和員工們的問卷調查顯示:60% 的公司計劃在2018年把他們的數據科學團隊擴大一倍,90% 的公司相信數據科學會帶來商業創新。但是,少于9% 的公司會量化數據模型帶來的商業價值,僅僅11%的公司能把至少50個預測模型投入使用。

問卷鏈接:

https://www.dominodatalab.com/resources/key-factors-journey-become-model-driven/

那么造成這種困境的根源是什么?一般來說,運用數據科學的公司可以分為兩種:一種是把數據科學僅看作是一種技術實踐的公司;另一種是把數據科學作為一個重要部分,進一步滲透到商業實踐的大環境中的公司。在進行決策制定過程中,那些能夠熟練地運用技術和管理實踐,并且把算法驅動的決策作為業務核心的公司,往往能獲得***的商業回報。這些公司才能夠被稱為 “模型驅動商業價值”型公司,比如亞馬遜、Netflix、Stitch Fix、特斯拉等。

[[233836]]

當然,說起來容易做起來難。讓我們來看看那些投資數據科學以求商業回報的公司們正在面對的四大挑戰:

團隊內各自為政1+1<2

聘請數據科學家并不能保證你的公司能從中獲益。對于絕大多數公司來說,根據邊際效益遞減規律,在已經有一個數據科學家的團隊里,再額外聘用一個數據科學家,并不會有多一倍的產出。然而,少數擁有表現突出的數據科學團隊的公司,會出現增加數據科學家,就能指數般提高產出的效果。

這里還有一個老生常談的問題,那就是數據科學家們都各自為政,在獨立的工作中,他們經常做重復的工作。因為他們看不到別人已經完成了什么工作,所以也沒法通過繼承前人的工作成果,來讓自己的工作變得輕松高效。

舉個例子,在一家知名保險公司里,幾十名數據科學家無組織、無合作地攻克同一個商業問題,這讓公司在數據科學方面的投資不值,也失去了更多本來可以用這些投資來發現的新機會。

換句話來說,一堆單單做模型的人,與一個有機結合的數據團隊是有本質區別的。那些有機組合在一起的團隊成員們能夠熟練運用知識、技能、經驗,用更短的時間,創造更好的模型,

模型部署與評估的割裂

運作良好的數據科學團隊,在工作中會有持續迭代的周期(從研究到產出的循環迭代),以及對模型效果的衡量。但是,模型研究和模型部署,這兩個過程經常被完全割裂。并且,當一個模型被使用后,也沒有與之對應的商業效果的分析。這會導致模型沒法根據商業效果迭代更新,給公司造成損失。有一家主流財務公司聲稱,他們“讓一個模型產生效用的時間,比建造新總部大樓的時間都要長”.

工具與技術與不匹配

盡管IT部門在過去十幾年的時間里,構建了用來儲存和處理數據的大數據基礎設施,但是這些基礎設施本身并不能完全保證數據科學的成功實踐。數據科學家會在一個月內使用多達3-5種不同的工具包,并時刻追趕最前沿的技術。僅在2017年,基于流行的開源程序語言Python 的軟件包,就多達36萬5千次更新!

另外,數據科學家的工作需要使用彈性計算平臺(云計算平臺)來進行具體操作實驗,譬如進行深度學習就需要配備GPU的高性能計算機。如果團隊不能使用彈性計算和最前沿的工具,那么團隊的效率會大大下降,研究進度會拖后,最終影響整個模型的開發進程。更糟糕的是,一些大公司(比如一家全球性的銀行)的新的Python數據包審批速度太慢,導致數據科學家們最終悄悄地用私人電腦來工作。這種在沒有IT部門明確審批的情況下,使用新工具的現象被稱為“影子IT (shadow IT)”。

模型監管缺失

生產環境中的模型如果缺乏有效的管理和監控,最終可能會產生弊大于利的后果。如果你經常監管這種在使用的模型,那么你很有可能已經意識到了這一問題。一個沒有嚴密監控或者被密切控制的模型可能對公司的業務產生很嚴重的后果,譬如公司規章被無視,營業收入受損失,品牌聲譽被破壞。

舉個例子,一家叫做 “Knight Capital Group”的公司,在一次模型更新失誤之后,在45分鐘內共損失了4.4億美金。這雖然是一個很極端的情況,但是說明了公司必須持續評估和監控他們的模型,防止模型的誤用,以及模型性能的退化。

案例鏈接:

https://dealbook.nytimes.com/2012/08/02/knight-capital-says-trading-mishap-cost-it-440-million/

如何克服這四大挑戰決定了一家公司未來5到10年發展。如果你認為自己的公司在數據科學軍備競賽中落后了,不用過分擔心,并不只有你的公司是這樣:根據調查顯示 46% 的公司被歸入“落后”這一檔,40%的公司被認為“有潛力”,只有14% 的公司在管理數據科學中顯示出了他們的先進性。

所幸,為時未晚。為了評估和使用數據科學帶來商業價值,公司必須構建一套圍繞員工、技術、工作流程的連續有效的框架。那些把時間和精力放在這個框架上,并且把數據科學作為核心競爭力的公司,能夠最終收獲商業回報。譬如,Netflix把模型結合到每一個業務環節中。據估計,僅個性化推薦模型就讓公司的價值上升了十億美金

Netflix案例鏈接:

http://www.businessinsider.com/netflix-recommendation-engine-worth-1-billion-per-year-2016-6

顯而易見的是,應用數據科學產生成效并不容易。它必須克服一些明顯的障礙。他們需要搞清楚怎么樣開發和部署具有很大影響力的模型,并且真正地將數據科學與商業結合。最終能夠克服這些困難的公司,才能夠獲得長久的競爭優勢。

相關報道:

https://www.kdnuggets.com/2018/05/data-science-4-reasons-failing-deliver.html

【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】

     大數據文摘二維碼

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2015-04-08 10:01:26

數據中心商用服務器

2016-11-22 08:30:31

2019-04-18 09:04:32

醫療大數據AI醫療大數據

2014-08-05 17:36:56

分析大數據商業

2023-06-08 06:08:20

AI

2010-05-10 12:59:02

Unix系統

2009-12-04 09:08:53

CentOS紅帽

2022-11-06 20:47:20

OCPC項目

2014-10-10 15:48:36

IT模式大數據云計算

2012-04-01 10:05:01

2014-05-27 10:57:08

思科ACISDN

2020-06-12 12:24:48

自動駕駛商業化道路

2013-12-27 15:28:20

微博微信

2021-12-24 08:25:02

開源商業化云化

2018-06-28 13:22:34

防火墻數據庫服務器

2020-04-09 10:12:17

人工智能新冠疫情太空

2021-11-08 10:07:57

數據存儲計算

2012-02-27 10:13:38

云計算融資

2020-10-08 18:35:25

APT威脅模型網絡攻擊

2013-08-07 09:50:37

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 自拍偷拍视频网 | 欧美在线国产精品 | 亚洲综合色丁香婷婷六月图片 | 国产乱码精品1区2区3区 | 国产精品久久久久久婷婷天堂 | 一区二区三区日韩 | 精品美女在线观看 | 中文在线а√在线8 | 午夜精品福利视频 | 亚洲欧洲精品成人久久奇米网 | 国产香蕉视频在线播放 | 中文字幕一区二区三区四区 | 天天射影院 | 丝袜一区二区三区 | 99久久婷婷国产综合精品首页 | 国产一区二区久久 | 欧美极品在线视频 | 欧美激情欧美激情在线五月 | 国产中文字幕av | 亚洲精品国产成人 | 99久久免费精品视频 | 国产性生活一级片 | 日韩在线视频观看 | 狠狠干影院 | 欧美一区二区三区视频 | 久久久久久www | 国产成人亚洲精品 | 99热电影| 精品国产伦一区二区三区观看说明 | av一二三区| 狠狠操狠狠操 | 日日日日日日bbbbb视频 | 国产一二三区在线 | 欧美另类视频 | 日本三级日产三级国产三级 | 日韩高清中文字幕 | 99久久久无码国产精品 | 成人二区 | 在线欧美视频 | 欧美国产亚洲一区二区 | 黄网站免费在线看 |